
Prima di integrare l’image tagging nella nostra API, ho valutato quattro dei più popolari servizi di image tagging. Per determinare quale servizio utilizzare, abbiamo esaminato le caratteristiche, i prezzi, i limiti di dimensione delle immagini, i limiti di velocità, le prestazioni e la precisione. Alla fine, ho deciso di usare con Google Vision, ma gli altri servizi potrebbero essere una buona soluzione per il tuo progetto.
Google Vision, Microsoft Cognitive Services, Amazon Rekognition e Clarifai : quali le differenze ?
Una delle cose di cui Filestack è orgogliosa è fornire il miglior servizio di gestione dei file al mondo per gli sviluppatori, e in effetti, costruire l’API dei file per il web. Sia che tu voglia integrare il nostro widget di uploader con poche righe di codice o che tu voglia costruire un sistema di uploading personalizzato sulla cima delle nostre API, vogliamo fornirti una piattaforma solida come la roccia unita ad un’esperienza eccellente.
Nel corso del tempo i nostri clienti hanno progressivamente chiesto dati più dettagliati sui loro file e upload. Questo ha fatto sì che il tagging delle immagini fosse una delle caratteristiche più richieste dai clienti. Negli anni passati, più di 250.000.000 di file sono stati caricati attraverso Filestack, con immagini che rappresentano più dell’85% di questi upload. Con le foto che dominano gli upload, l’estrazione dei dati Exif (Exchangeable Image File Format) e il riconoscimento automatico degli oggetti (image tagging) stanno diventando figure dominanti nell’analisi dei dati.
I dati exif non sono nuovi per Filestack, i clienti oggi possono interrogare i metadati di un’immagine caricata per vedere il carico exif. Molto simile alla decisione che abbiamo preso di collaborare con un CDN, il team di ingegneri di Filestack aveva una decisione da prendere: costruire un servizio di tagging delle immagini o cercare un partner migliore per andare sul mercato. Questa decisione è stata un po’ più complicata perché avevamo già un motore di rilevamento facciale, quindi c’è una certa impalcatura di un prodotto, mentre la consegna dei contenuti era qualcosa in cui non avevamo investimenti software.
Il panorama dell’AI è decollato, e con esso vediamo sistemi di riconoscimento delle immagini come Clarifai e Imagga, così come i grandi incumbent tecnologici come Microsoft, Google e Amazon. Sembra che ci sia un nuovo arrivato ogni pochi giorni, e la concorrenza è buona! Questo produrrà piattaforme migliori, clienti più felici e usi più creativi di questa tecnologia. Nell’interesse del tempo, abbiamo deciso di scegliere una manciata di giocatori in questo spazio e metterli alla prova. La velocità e la precisione sono state le due categorie a cui abbiamo dato la priorità; c’è una quantità quasi infinita di criteri di successo che si potrebbero mettere su questo, quindi abbiamo cercato di mantenerlo semplice.
Confronto tra 4 popolari API di riconoscimento degli oggetti con machine learning
Le quattro piattaforme che ho messo alla prova sono:
Google Cloud Vision
Basato sul framework open-source Tensorflow che alimenta anche Google Photos, Google ha lanciato l’API Cloud Vision (beta) nel febbraio 2016. Include molteplici funzioni, tra cui il riconoscimento ottico dei caratteri (OCR), così come il rilevamento di volti, emozioni, loghi, contenuti inappropriati e oggetti.
Servizi cognitivi di Microsoft
Precedentemente noto come Project Oxford, Microsoft Cognitive Services comprende 22 API che includono un’ampia varietà di API di rilevamento come colore dominante, volto, emozione, celebrità, tipo di immagine e contenuto non sicuro per il lavoro (NSFW). Ai fini del nostro test di riconoscimento degli oggetti, ci siamo concentrati sulla Computer Vision API (anteprima), che impiega il concetto di 86 categorie per il tagging.
Amazon Rekognition
Amazon Rekognition è un servizio di riconoscimento delle immagini che è stato spinto dalla tranquilla acquisizione di Orbeus nel 2015. Rekognition si concentra sul rilevamento di oggetti, viso ed emozioni. Una grande differenza rispetto agli altri servizi testati è stata l’assenza di rilevamento di contenuti NSFW. Andando avanti, Amazon ha gettato il suo pieno sostegno dietro MXNet come loro framework di deep-learning di scelta.
Clarifai
Fondata nel 2013, e vincitrice della Imagenet 2013 Classification Challenge, Clarafi è una delle startup più calde nello spazio AI che ha raccolto oltre 40 milioni di finanziamenti. Guidata dal guru del Machine Learning / Computer Vision Matthew Zeiller, Clarifai si sta facendo un nome combinando modelli di base con ulteriori modelli di apprendimento automatico per classificare in aree come “generale”, “NSFW”, “matrimoni”, “viaggi” e “cibo”.
Amazon | Clarifai | Microsoft | ||
Image Tagging | Yes | Yes | Yes | Yes |
Video Tagging | Yes | Yes | Yes | Yes |
Emotions detection | Yes | Yes | Yes | Yes |
Logo detection | Yes | Yes | Yes | Yes |
NSFW tagging | Yes | Yes | Yes | Yes |
Dominant color | Yes | Yes | Yes | Yes |
Feedback API | No | Yes | Yes | No |
Image Size Limits
Amazon Rekognition | 5Mb / Image, 15Mb / Image from S3 |
Google Vision API | 20 MB / Image |
Clarifai | No data in documentation |
Microsoft Computer Vision API | 4 MB / Image |
Rate limits
Amazon Rekognition | Not defined in documentation |
Google Vision API | Varies by plan |
Clarifai | Varies by plan (we get 30 rps for testing purposes) |
Microsoft Computer Vision API | 10 Requests per second |
Ora che abbiamo preparato il palco, eravamo pronti per testare le due caratteristiche che ci interessavano di più: prestazioni e precisione.
Test delle prestazioni Google Vision, Microsoft Cognitive Services, Amazon Rekognition e Clarifai
MacBook Pro, Kraków, 1000 files, 10 at a time
Average | Minimum | Maximum | 90th percentile | |
Amazon | 2.42s | 1.03s | 3.73s | 3.21s |
1.23s | 0.69s | 1.68s | 1.42s | |
Clarifai | 4.69s | 0.1s | 58.16s | 4.78s |
Microsoft | 1.11s | 0.65s | 5.07s | 1.5s |
N. Virginia, 1000 files, 10 at a time
Average | Minimum | Maximum | 90th percentile | |
Amazon | 1.1s | 0.302s | 3.64s | 1.97s |
0.98s | 0.4s | 1.79s | 1.12s | |
Clarifai | 2.17s | 0.81s | 7.35s | 3.34s |
Microsoft | 1.38s | 0.81s | 4.22s | 2.14s |
N. Virginia, 3000 files, 10 at a time
Average | Minimum | Maximum | 90th percentile | |
Amazon | 1.08 | 0.25 | 2.71 | 1.96 |
Amazon S3 | 1.26 | 0.35 | 4.02 | 2.17 |
0.97 | 0.41 | 2.87 | 1.11 | |
Clarifai | 2.08 | 0.84 | 7.63 | 3.05 |
Microsoft | 1.31 | 0.73 | 14.74 | 1.87 |
Cosa abbiamo imparato?
Google Vision API ci ha fornito le prestazioni più costanti e prevedibili durante i nostri test, ma non consente l’iniezione con gli URL. Per usarla, abbiamo dovuto inviare l’intero file, o in alternativa potevamo usare Google Cloud Storage per risparmiare sui costi di banda.
Microsoft ha mostrato prestazioni ragionevoli con alcuni tempi più alti a carico elevato.Amazon Rekognition supporta l’iniezione direttamente da S3, ma non ci sono stati grandi miglioramenti nelle prestazioni. Google era più veloce nell’elaborazione anche se un’immagine proveniva da un server situato nell’infrastruttura di AWS. L’utilizzo di collegamenti S3 potrebbe potenzialmente far risparmiare i costi di banda in uscita, e l’utilizzo di S3 ci permette di utilizzare file molto più grandi (15Mb).
Clarifai è stato il provider più lento, ma è stato abbastanza flessibile da aumentare i nostri limiti di velocità a 30 richieste al secondo. Non era chiaro che più opzioni di tagging scalassero linearmente con il tempo per ingerire e taggare le immagini.
Filestack POV: L’investimento di Google nella loro infrastruttura di rete ancora una volta si è dimostrato un grande vincitore. Anche con il costo della larghezza di banda che ha raggiunto i minimi storici, dobbiamo essere consapevoli del costo di elaborazione di milioni di file attraverso più fornitori di cloud storage e siti di social media.
Object recognition testing
Google Maps screenshot

Amazon | Diagram (92%), Plan (92%), Atlas (60%), Map (60%) |
Map (92%), Plan (60%) | |
Clarifai | Map (99%), Cartography (99%), Graph (99%), Guidance (99%), Ball-Shaped (99%), Location (98%), Geography (98%), Topography (97%), Travel (97%), Atlas (96%), Road (96%), Trip (95%), City (95%), Country (94%), Universe (93%), Symbol (93%), Navigation (92%), Illustration (91%), Diagram (91%), Spherical (90%) |
Microsoft | Text (99%), Map (99%) |
Per iniziare abbiamo deciso di usare qualcosa che pensavamo fosse abbastanza semplice, uno screenshot di Google Maps. Tutti i servizi si sono comportati abbastanza bene qui; ma Microsoft era l’uomo strano con un 99% di fiducia che questo era “Testo”.
Fruit cup

Amazon | Fruit (96%), Dessert (95%), Food (95%), Alcohol (51%), Beverage (51%), Coctail (51%), Drink (51%), Cream (51%), Creme (51%) |
Food (95%), Dessert (84%), Plant (81%), Produce (77%), Frutti Di Bosco (77%), Fruit (72%), Breakfast (71%), Pavlova (71%), Meal (66%), Gelatin Dessert (57%) | |
Clarifai | Fruit (99%), No Person (99%), Strawberry (99%), Delicious (99%), Sweet (98%), Juicy (98%), Food (97%), Health (97%), Breakfast (97%), Sugar (97%), Berry (96%), Nutrition (96%), Summer (95%), Vitamin (94%), Kiwi (93%), Tropical (92%), Juice (92%), Refreshment (92%), Leaf (90%), Ingredients (90%) |
Microsoft | Food (97%), Cup (90%), Indoor (89%), Fruit (88%), Plate (87%), Dessert (38%), Fresh (16%) |
Mantenendo le cose relativamente semplici, abbiamo eseguito un test con una tazza da dessert alla frutta. Google sorprendentemente è arrivato ultimo in fiducia come “frutta” come categoria. Clarifai non solo ha colpito la frutta, ma con la loro vasta gamma di opzioni di categorizzazione, abbiamo ottenuto molti risultati intorno ai tag “salute”.
Assorted peppers

Amazon | Bell Pepper (97%), Pepper (97%), Produce (97%), Vegetable (97%), Market (84%), Food (52%) |
Malagueta Pepper (96%), Food (96%), Pepperoncini (92%), Chili Pepper (91%), Vegetable (91%), Produce (90%), Cayenne pepper (88%), Plant (87%), Bird’s Eye Chili (87%), Pimiento (81%) | |
Clarifai | Pepper (99%), Chili (99%), Vegetable (98%), Food (98%), Cooking (98%), No Person (97%), Spice (97%), Capsicum (97%), Bell (97%), Hot (97%), Market (96%), Pimento (96%), Healthy (95%), Ingredients (95%), Jalapeno (95%), Cayenne (95%), Health (94%), Farming (93%), Nutrition (93%), Grow (90%) |
Microsoft | Pepper (97%), Hot Pepper (87%), Vegetable (84%) |
Abbiamo speziato le cose in questo round presentando una foto piena di vari peperoni. Tutti i fornitori si sono comportati abbastanza bene qui, specialmente Google e Clarifai con i tag dei peperoni più accurati.
Herman the Dog

Amazon | Animal (92%), Canine (92%), Dog (92%), Golden Retriever (92%), Mammal (92%), Pet (92%), Collie (51%) |
Dog (98%), Mammal (93%), Vertebrate (92%), Dog Breed (90%), Nose (81%), Dog Like Mammal (78%), Golden Retriever (77%), Retriever (65%), Collie (56%), Puppy (51%) | |
Clarifai | Dog (99%), Mammal (99%), Canine (98%), Pet (98%), Animal (98%), Portrait (98%), Cute (98%), Fur (96%), Puppy (95%), No person (92%), Retriever (91%), One (91%), Eye (90%), Looking (89%), Adorable (89%), Golden Retriever (88%), Little (87%), Nose (86%), Breed (86%), Tongue (86%) |
Microsoft | Dog (99%), Floor (91%), Animal (90%), Indoor (90%), Brown (88%), Mammal (71%), Tan (27%), Starting (18%) |
La prossima era una foto stock di un cane nero, chiamiamolo Herman. Tutti i servizi sono andati bene, la cosa più interessante da vedere qui è che Amazon, Google, e Clarifai tutti taggano con “Golden Retriever”. Non sono sicuro che Herman sia un golden retriever, ma tre servizi su quattro hanno detto il contrario.
Flipped Herman the dog

Amazon | Animal (98%), Canine (98%), Dog (98%), Mammal (98%), Pet (98%), Pug (98%) |
Dog (97%), Mammal (92%), Vertebrate (90%), Dog Like Mammal (70%) | |
Clarifai | Dog (99%), Mammal (97%), No Person (96%), Pavement (96%), Pet (95%), Canine (94%), Portrait (94%), One (93%), Animal (93%), Street (93%), Cute (93%), Sit (91%), Outdoors (89%), Walk (88%), Sitting (87%), Puppy (87%), Looking (87%), Domestic (87%), Guard (86%), Little (86%) |
Microsoft | Ground (99%), Floor (90%), Sidewalk (86%), Black (79%), Domestic Cat (63%), Tile (55%), Mammal (53%), Tiled (45%), Dog (42%), Cat (17%) |
Tornando alla nostra adorabile foto stock di Herman, abbiamo capovolto l’immagine e l’abbiamo rimessa nel mixer. Herman ha dato adeguatamente a Microsoft un po’ di bruciore di stomaco, dato che “Dog” è sceso al 42%, e ha dato anche un 17% di certezza che Herman sia un “Cat”.
Zoomed in Herman

Amazon | Animal (89%), Canine (89%), Dog (89%), Labrador Retriever (89%), Mammal (89%), Pet (89%) |
Dog (96%), Mammal (92%), Vertebrate (90%), Dog Like Mammal (69%) | |
Clarifai | Animal (99%), Mammal (98%), Nature (97%), Wildlife (97%), Wild (96%), Cute (96%), Fur (95%), No Person (95%), Looking (93%), Portrait (92%), Grey (92%), Dog(91%), Young (89%), Hair (88%), Face (87%), Chordata (87%), Little (86%), One (86%), Water (85%), Desktop (85%) |
Microsoft | Dog (99%), Animal (98%), Ground (97%), Black (97%), Mammal (97%), Looking (86%), Standing (86%), Staring (16%) |
Alla fine del nostro giro di test basati su Herman, abbiamo presentato un’immagine ingrandita a ciascuna delle piattaforme. Complimenti ad Amazon per “Labrador Retriever”, poiché è la razza di Herman. Tutto il resto è abbastanza standard.
Telephone Logo

Amazon |
Emblem (51%), Logo (51%) |
Text (92%), Font (86%), Circle (64%), Trademark (63%), Brand (59%), Number (53%) | |
Clarifai | Business (96%), Round (94%), No Person (94%), Abstract (94%), Symbol (92%), Internet (90%), Technology (90%), Round out (89%), Desktop (88%), Illustration (87%), Arrow (86%), Conceptual (85%), Reflection (84%), Guidance (83%), Shape (82%), Focus (82%), Design (81%), Sign (81%), Number (81%), Glazed (80%) |
Microsoft | Bicycle (99%), Metal (89%), Sign (68%), Close (65%), Orange (50%), Round (27%), Bicycle Rack (15%) |
Nel tentativo di allungare le categorie di immagini, abbiamo deciso di gettare un logo nel nostro test e vedere cosa è stato riportato. Complimenti ad Amazon per aver riportato “Logo”, dato che è quello che ci aspettavamo, e nessun altro ha colpito. Microsoft che guida con una certezza del 99% questo è un “Bicycle” è stata la prima grande mancanza che abbiamo trovato.
Uncle Sam logo

Amazon | Clown (54%), Mime (54%), Performer (54%), Person (54%), Costume (52%), People (51%) |
Figurine (55%), Costume Accessory (51%) | |
Clarifai | Lid (99%), Desktop (98%), Man (97%), Person (96%), Isolated (95%), Adult (93%), Costume (92%), Young (92%), Retro (91%), Culture (91%), Style (91%), Boss (90%), Traditional (90%), Authority (89%), Party (89%), Crown (89%), Funny (87%), People (87%), Celebration (86%), Fun (86%) |
Microsoft | No data returned |
L’unico test che abbiamo eseguito che ha lasciato perplesso uno dei nostri concorrenti, un logo dello Zio Sam non è stato rilevato affatto da Microsoft. Gli altri tre servizi sono stati variati nelle loro risposte, ma nessuno di loro è stato in grado di identificare correttamente il logo.
Cosa abbiamo imparato?
- Google Vision è stato abbastanza accurato e dettagliato. Non ci sono state grandi mancanze, la più grande è stata l’immagine del logo del telefono, ma ha colto il “marchio”.
- Microsoft ha preso un po’ di botte, dato che non si è comportato bene su Herman capovolto, o sul logo del telefono. Anche il logo “Uncle Sam” non ha restituito dati.
- Amazon Rekognition è stato abbastanza affidabile e non ha avuto grandi sorprese. Per quanto riguarda la maturità delle funzioni, questo è uno degli ultimi arrivati sul mercato. Dati i precedenti di Amazon Web Service, ci aspettiamo che questo servizio cresca molto velocemente e che vengano aggiunte nuove funzionalità ad un ritmo vertiginoso.
- Clarifai ha avuto di gran lunga il maggior numero di tag di immagini, ma ha avuto qualche intoppo lungo la strada. Lo zoom di Herman è stato in grado di far cadere “Dog” dai suoi tag suggeriti. Più tag non è sempre meglio, dato che alcuni di essi erano imprecisi.
- Filestack POV: Il rilevamento e l’accuratezza dei logo è molto difficile. Abbiamo anche imparato che un maggior numero di categorie di tag delle immagini non è necessariamente correlato a un tagging più accurato.
Vincitore: Google Vision
Conclusione
Con la velocità e la precisione che sono le nostre principali priorità, l’API Vision di Google è stata la vincitrice questa volta. Vi incoraggiamo a scegliere il servizio che risolve meglio le vostre esigenze, poiché ogni piattaforma ha punti di forza e debolezze. Continueremo a testare, rivedere e infine integrare con i migliori servizi di razza – questo è solo l’inizio. Il nostro obiettivo è quello di garantire ai nostri clienti il miglior valore per il loro dollaro e aiutarli a risolvere sfide complesse intorno al contenuto intelligente.