Riconoscimento delle immagini: Google Vision vs Microsoft Cognitive Services vs Amazon Rekognition vs Clarifai

Condividi questo articolo:


Prima di integrare l’image tagging nella nostra API, ho valutato quattro dei più popolari servizi di image tagging. Per determinare quale servizio utilizzare, abbiamo esaminato le caratteristiche, i prezzi, i limiti di dimensione delle immagini, i limiti di velocità, le prestazioni e la precisione. Alla fine, ho deciso di usare con Google Vision, ma gli altri servizi potrebbero essere una buona soluzione per il tuo progetto.

Google Vision, Microsoft Cognitive Services, Amazon Rekognition e Clarifai : quali le differenze ?

Una delle cose di cui Filestack è orgogliosa è fornire il miglior servizio di gestione dei file al mondo per gli sviluppatori, e in effetti, costruire l’API dei file per il web. Sia che tu voglia integrare il nostro widget di uploader con poche righe di codice o che tu voglia costruire un sistema di uploading personalizzato sulla cima delle nostre API, vogliamo fornirti una piattaforma solida come la roccia unita ad un’esperienza eccellente.

Nel corso del tempo i nostri clienti hanno progressivamente chiesto dati più dettagliati sui loro file e upload. Questo ha fatto sì che il tagging delle immagini fosse una delle caratteristiche più richieste dai clienti. Negli anni passati, più di 250.000.000 di file sono stati caricati attraverso Filestack, con immagini che rappresentano più dell’85- di questi upload. Con le foto che dominano gli upload, l’estrazione dei dati Exif (Exchangeable Image File Format) e il riconoscimento automatico degli oggetti (image tagging) stanno diventando figure dominanti nell’analisi dei dati.

I dati exif non sono nuovi per Filestack, i clienti oggi possono interrogare i metadati di un’immagine caricata per vedere il carico exif. Molto simile alla decisione che abbiamo preso di collaborare con un CDN, il team di ingegneri di Filestack aveva una decisione da prendere: costruire un servizio di tagging delle immagini o cercare un partner migliore per andare sul mercato. Questa decisione è stata un po’ più complicata perché avevamo già un motore di rilevamento facciale, quindi c’è una certa impalcatura di un prodotto, mentre la consegna dei contenuti era qualcosa in cui non avevamo investimenti software.

Il panorama dell’AI è decollato, e con esso vediamo sistemi di riconoscimento delle immagini come Clarifai e Imagga, così come i grandi incumbent tecnologici come Microsoft, Google e Amazon. Sembra che ci sia un nuovo arrivato ogni pochi giorni, e la concorrenza è buona! Questo produrrà piattaforme migliori, clienti più felici e usi più creativi di questa tecnologia. Nell’interesse del tempo, abbiamo deciso di scegliere una manciata di giocatori in questo spazio e metterli alla prova. La velocità e la precisione sono state le due categorie a cui abbiamo dato la priorità; c’è una quantità quasi infinita di criteri di successo che si potrebbero mettere su questo, quindi abbiamo cercato di mantenerlo semplice.

Confronto tra 4 popolari API di riconoscimento degli oggetti con machine learning

Le quattro piattaforme che ho messo alla prova sono:

Google Cloud Vision

Basato sul framework open-source Tensorflow che alimenta anche Google Photos, Google ha lanciato l’API Cloud Vision (beta) nel febbraio 2016. Include molteplici funzioni, tra cui il riconoscimento ottico dei caratteri (OCR), così come il rilevamento di volti, emozioni, loghi, contenuti inappropriati e oggetti.

Servizi cognitivi di Microsoft

Precedentemente noto come Project Oxford, Microsoft Cognitive Services comprende 22 API che includono un’ampia varietà di API di rilevamento come colore dominante, volto, emozione, celebrità, tipo di immagine e contenuto non sicuro per il lavoro (NSFW). Ai fini del nostro test di riconoscimento degli oggetti, ci siamo concentrati sulla Computer Vision API (anteprima), che impiega il concetto di 86 categorie per il tagging.

Amazon Rekognition

Amazon Rekognition è un servizio di riconoscimento delle immagini che è stato spinto dalla tranquilla acquisizione di Orbeus nel 2015. Rekognition si concentra sul rilevamento di oggetti, viso ed emozioni. Una grande differenza rispetto agli altri servizi testati è stata l’assenza di rilevamento di contenuti NSFW. Andando avanti, Amazon ha gettato il suo pieno sostegno dietro MXNet come loro framework di deep-learning di scelta.

Clarifai

Fondata nel 2013, e vincitrice della Imagenet 2013 Classification Challenge, Clarafi è una delle startup più calde nello spazio AI che ha raccolto oltre 40 milioni di finanziamenti. Guidata dal guru del Machine Learning / Computer Vision Matthew Zeiller, Clarifai si sta facendo un nome combinando modelli di base con ulteriori modelli di apprendimento automatico per classificare in aree come “generale”, “NSFW”, “matrimoni”, “viaggi” e “cibo”.

Amazon Google Clarifai Microsoft
Image Tagging Yes Yes Yes Yes
Video Tagging Yes Yes Yes Yes
Emotions detection Yes Yes Yes Yes
Logo detection Yes Yes Yes Yes
NSFW tagging Yes Yes Yes Yes
Dominant color Yes Yes Yes Yes
Feedback API No Yes Yes No

 

Image Size Limits

Amazon Rekognition 5Mb / Image, 15Mb / Image from S3
Google Vision API 20 MB / Image
Clarifai No data in documentation
Microsoft Computer Vision API 4 MB / Image

 

Rate limits

Amazon Rekognition Not defined in documentation
Google Vision API Varies by plan
Clarifai Varies by plan (we get 30 rps for testing purposes)
Microsoft Computer Vision API 10 Requests per second

Ora che abbiamo preparato il palco, eravamo pronti per testare le due caratteristiche che ci interessavano di più: prestazioni e precisione.

Test delle prestazioni Google Vision, Microsoft Cognitive Services, Amazon Rekognition e Clarifai

MacBook Pro, Kraków, 1000 files, 10 at a time

Average Minimum Maximum 90th percentile
Amazon 2.42s 1.03s 3.73s 3.21s
Google 1.23s 0.69s 1.68s 1.42s
Clarifai 4.69s 0.1s 58.16s 4.78s
Microsoft 1.11s 0.65s 5.07s 1.5s

MacBook Pro Krakow, 1000 files, 10 at a time

N. Virginia, 1000 files, 10 at a time

Average Minimum Maximum 90th percentile
Amazon 1.1s 0.302s 3.64s 1.97s
Google 0.98s 0.4s 1.79s 1.12s
Clarifai 2.17s 0.81s 7.35s 3.34s
Microsoft 1.38s 0.81s 4.22s 2.14s

N. Viriginia, 100 files, 10 at a time

N. Virginia, 3000 files, 10 at a time

Average Minimum Maximum 90th percentile
Amazon 1.08 0.25 2.71 1.96
Amazon S3 1.26 0.35 4.02 2.17
Google 0.97 0.41 2.87 1.11
Clarifai 2.08 0.84 7.63 3.05
Microsoft 1.31 0.73 14.74 1.87

N. Virginia, 3000 files, 10 at a time

Cosa abbiamo imparato?

Google Vision API ci ha fornito le prestazioni più costanti e prevedibili durante i nostri test, ma non consente l’iniezione con gli URL. Per usarla, abbiamo dovuto inviare l’intero file, o in alternativa potevamo usare Google Cloud Storage per risparmiare sui costi di banda.
Microsoft ha mostrato prestazioni ragionevoli con alcuni tempi più alti a carico elevato.Amazon Rekognition supporta l’iniezione direttamente da S3, ma non ci sono stati grandi miglioramenti nelle prestazioni. Google era più veloce nell’elaborazione anche se un’immagine proveniva da un server situato nell’infrastruttura di AWS. L’utilizzo di collegamenti S3 potrebbe potenzialmente far risparmiare i costi di banda in uscita, e l’utilizzo di S3 ci permette di utilizzare file molto più grandi (15Mb).
Clarifai è stato il provider più lento, ma è stato abbastanza flessibile da aumentare i nostri limiti di velocità a 30 richieste al secondo. Non era chiaro che più opzioni di tagging scalassero linearmente con il tempo per ingerire e taggare le immagini.
Filestack POV: L’investimento di Google nella loro infrastruttura di rete ancora una volta si è dimostrato un grande vincitore. Anche con il costo della larghezza di banda che ha raggiunto i minimi storici, dobbiamo essere consapevoli del costo di elaborazione di milioni di file attraverso più fornitori di cloud storage e siti di social media.

Object recognition testing

Google Maps screenshot

Google Maps Screenshot
Source: Flickr.com

 

Amazon Diagram (92-), Plan (92-), Atlas (60-), Map (60-)
Google Map (92-), Plan (60-)
Clarifai Map (99-), Cartography (99-), Graph (99-), Guidance (99-), Ball-Shaped (99-), Location (98-), Geography (98-), Topography (97-), Travel (97-), Atlas (96-), Road (96-), Trip (95-), City (95-), Country (94-), Universe (93-), Symbol (93-), Navigation (92-), Illustration (91-), Diagram (91-), Spherical (90-)
Microsoft Text (99-), Map (99-)

 

Per iniziare abbiamo deciso di usare qualcosa che pensavamo fosse abbastanza semplice, uno screenshot di Google Maps. Tutti i servizi si sono comportati abbastanza bene qui; ma Microsoft era l’uomo strano con un 99- di fiducia che questo era “Testo”.

 

Fruit cup

 

fruit dessert cup
Source: Flickr.com

 

Amazon Fruit (96-), Dessert (95-), Food (95-), Alcohol (51-), Beverage (51-), Coctail (51-), Drink (51-), Cream (51-), Creme (51-)
Google Food (95-), Dessert (84-), Plant (81-), Produce (77-), Frutti Di Bosco (77-), Fruit (72-), Breakfast (71-), Pavlova (71-), Meal (66-), Gelatin Dessert (57-)
Clarifai Fruit (99-), No Person (99-), Strawberry (99-), Delicious (99-), Sweet (98-), Juicy (98-), Food (97-), Health (97-), Breakfast (97-), Sugar (97-), Berry (96-), Nutrition (96-), Summer (95-), Vitamin (94-), Kiwi (93-), Tropical (92-), Juice (92-), Refreshment (92-), Leaf (90-), Ingredients (90-)
Microsoft Food (97-), Cup (90-), Indoor (89-), Fruit (88-), Plate (87-), Dessert (38-), Fresh (16-)

 

Mantenendo le cose relativamente semplici, abbiamo eseguito un test con una tazza da dessert alla frutta. Google sorprendentemente è arrivato ultimo in fiducia come “frutta” come categoria. Clarifai non solo ha colpito la frutta, ma con la loro vasta gamma di opzioni di categorizzazione, abbiamo ottenuto molti risultati intorno ai tag “salute”.

 

Assorted peppers

assorted peppers
Source: Flickr.com

 

Amazon Bell Pepper (97-), Pepper (97-), Produce (97-), Vegetable (97-), Market (84-), Food (52-)
Google Malagueta Pepper (96-), Food (96-), Pepperoncini (92-), Chili Pepper (91-), Vegetable (91-), Produce (90-), Cayenne pepper (88-), Plant (87-), Bird’s Eye Chili (87-), Pimiento (81-)
Clarifai Pepper (99-), Chili (99-), Vegetable (98-), Food (98-), Cooking (98-), No Person (97-), Spice (97-), Capsicum (97-), Bell (97-), Hot (97-), Market (96-), Pimento (96-), Healthy (95-), Ingredients (95-), Jalapeno (95-), Cayenne (95-), Health (94-), Farming (93-), Nutrition (93-), Grow (90-)
Microsoft Pepper (97-), Hot Pepper (87-), Vegetable (84-)

 

Abbiamo speziato le cose in questo round presentando una foto piena di vari peperoni. Tutti i fornitori si sono comportati abbastanza bene qui, specialmente Google e Clarifai con i tag dei peperoni più accurati.

 

Herman the Dog

Herman the dog
Source: Flickr.com

 

Amazon Animal (92-), Canine (92-), Dog (92-), Golden Retriever (92-), Mammal (92-), Pet (92-), Collie (51-)
Google Dog (98-), Mammal (93-), Vertebrate (92-), Dog Breed (90-), Nose (81-), Dog Like Mammal (78-), Golden Retriever (77-), Retriever (65-), Collie (56-), Puppy (51-)
Clarifai Dog (99-), Mammal (99-), Canine (98-), Pet (98-), Animal (98-), Portrait (98-), Cute (98-), Fur (96-), Puppy (95-), No person (92-), Retriever (91-), One (91-), Eye (90-), Looking (89-), Adorable (89-), Golden Retriever (88-), Little (87-), Nose (86-), Breed (86-), Tongue (86-)
Microsoft Dog (99-), Floor (91-), Animal (90-), Indoor (90-), Brown (88-), Mammal (71-), Tan (27-), Starting (18-)

 

La prossima era una foto stock di un cane nero, chiamiamolo Herman.  Tutti i servizi sono andati bene, la cosa più interessante da vedere qui è che Amazon, Google, e Clarifai tutti taggano con “Golden Retriever”. Non sono sicuro che Herman sia un golden retriever, ma tre servizi su quattro hanno detto il contrario.

 

Flipped Herman the dog

Flipped Herman the dog
Source: Filckr.com

 

 

Amazon Animal (98-), Canine (98-), Dog (98-), Mammal (98-), Pet (98-), Pug (98-)
Google Dog (97-), Mammal (92-), Vertebrate (90-), Dog Like Mammal (70-)
Clarifai Dog (99-), Mammal (97-), No Person (96-), Pavement (96-), Pet (95-), Canine (94-), Portrait (94-), One (93-), Animal (93-), Street (93-), Cute (93-), Sit (91-), Outdoors (89-), Walk (88-), Sitting (87-), Puppy (87-), Looking (87-), Domestic (87-), Guard (86-), Little (86-)
Microsoft Ground (99-), Floor (90-), Sidewalk (86-), Black (79-), Domestic Cat (63-), Tile (55-), Mammal (53-), Tiled (45-), Dog (42-), Cat (17-)

 

Tornando alla nostra adorabile foto stock di Herman, abbiamo capovolto l’immagine e l’abbiamo rimessa nel mixer. Herman ha dato adeguatamente a Microsoft un po’ di bruciore di stomaco, dato che “Dog” è sceso al 42-, e ha dato anche un 17- di certezza che Herman sia un “Cat”.

 

Zoomed in Herman

Zoomed in Herman the dog
Source: Flickr.com

 

Amazon Animal (89-), Canine (89-), Dog (89-), Labrador Retriever (89-), Mammal (89-), Pet (89-)
Google Dog (96-), Mammal (92-), Vertebrate (90-), Dog Like Mammal (69-)
Clarifai Animal (99-), Mammal (98-), Nature (97-), Wildlife (97-), Wild (96-), Cute (96-), Fur (95-), No Person (95-), Looking (93-), Portrait (92-), Grey (92-), Dog(91-), Young (89-), Hair (88-), Face (87-), Chordata (87-), Little (86-), One (86-), Water (85-), Desktop (85-)
Microsoft Dog (99-), Animal (98-), Ground (97-), Black (97-), Mammal (97-), Looking (86-), Standing (86-), Staring (16-)

 

Alla fine del nostro giro di test basati su Herman, abbiamo presentato un’immagine ingrandita a ciascuna delle piattaforme. Complimenti ad Amazon per “Labrador Retriever”, poiché è la razza di Herman. Tutto il resto è abbastanza standard.

 

Telephone Logo

 

telephone logo
Source: Flickr.com

 

 

Amazon

Emblem (51-), Logo (51-)
Google Text (92-), Font (86-), Circle (64-), Trademark (63-), Brand (59-), Number (53-)
Clarifai Business (96-), Round (94-), No Person (94-), Abstract (94-), Symbol (92-), Internet (90-), Technology (90-), Round out (89-), Desktop (88-), Illustration (87-), Arrow (86-), Conceptual (85-), Reflection (84-), Guidance (83-), Shape (82-), Focus (82-), Design (81-), Sign (81-), Number (81-), Glazed (80-)
Microsoft Bicycle (99-), Metal (89-), Sign (68-), Close (65-), Orange (50-), Round (27-), Bicycle Rack (15-)

Nel tentativo di allungare le categorie di immagini, abbiamo deciso di gettare un logo nel nostro test e vedere cosa è stato riportato. Complimenti ad Amazon per aver riportato “Logo”, dato che è quello che ci aspettavamo, e nessun altro ha colpito. Microsoft che guida con una certezza del 99- questo è un “Bicycle” è stata la prima grande mancanza che abbiamo trovato.

 

Uncle Sam logo

Uncle Sam Logo
Source: Flickr.com

 

Amazon Clown (54-), Mime (54-), Performer (54-), Person (54-), Costume (52-), People (51-)
Google Figurine (55-), Costume Accessory (51-)
Clarifai Lid (99-), Desktop (98-), Man (97-), Person (96-), Isolated (95-), Adult (93-), Costume (92-), Young (92-), Retro (91-), Culture (91-), Style (91-), Boss (90-), Traditional (90-), Authority (89-), Party (89-), Crown (89-), Funny (87-), People (87-), Celebration (86-), Fun (86-)
Microsoft No data returned

 

L’unico test che abbiamo eseguito che ha lasciato perplesso uno dei nostri concorrenti, un logo dello Zio Sam non è stato rilevato affatto da Microsoft.  Gli altri tre servizi sono stati variati nelle loro risposte, ma nessuno di loro è stato in grado di identificare correttamente il logo.

 

Cosa abbiamo imparato?

  • Google Vision è stato abbastanza accurato e dettagliato.  Non ci sono state grandi mancanze, la più grande è stata l’immagine del logo del telefono, ma ha colto il “marchio”.
  • Microsoft ha preso un po’ di botte, dato che non si è comportato bene su Herman capovolto, o sul logo del telefono.  Anche il logo “Uncle Sam” non ha restituito dati.
  • Amazon Rekognition è stato abbastanza affidabile e non ha avuto grandi sorprese.  Per quanto riguarda la maturità delle funzioni, questo è uno degli ultimi arrivati sul mercato.  Dati i precedenti di Amazon Web Service, ci aspettiamo che questo servizio cresca molto velocemente e che vengano aggiunte nuove funzionalità ad un ritmo vertiginoso.
  • Clarifai ha avuto di gran lunga il maggior numero di tag di immagini, ma ha avuto qualche intoppo lungo la strada.  Lo zoom di Herman è stato in grado di far cadere “Dog” dai suoi tag suggeriti.  Più tag non è sempre meglio, dato che alcuni di essi erano imprecisi.
  • Filestack POV:  Il rilevamento e l’accuratezza dei logo è molto difficile.  Abbiamo anche imparato che un maggior numero di categorie di tag delle immagini non è necessariamente correlato a un tagging più accurato.

Vincitore: Google Vision

Conclusione

Con la velocità e la precisione che sono le nostre principali priorità, l’API Vision di Google è stata la vincitrice questa volta. Vi incoraggiamo a scegliere il servizio che risolve meglio le vostre esigenze, poiché ogni piattaforma ha punti di forza e debolezze. Continueremo a testare, rivedere e infine integrare con i migliori servizi di razza – questo è solo l’inizio. Il nostro obiettivo è quello di garantire ai nostri clienti il miglior valore per il loro dollaro e aiutarli a risolvere sfide complesse intorno al contenuto intelligente.

 


Per ulteriori informazioni visita il sito: immagi.net

Condividi questo articolo: