Computer vision su cataloghi moda: come automatizzare il riconoscimento prodotti

Migliaia di prodotti nuovi ogni stagione da catalogare manualmente. La computer vision automatizza il riconoscimento con accuracy superiore al 92% sulle macro-categorie.

7 min

Team Sydus

18 febbraio 2026

computer-visionmodacatalogo

7 minTeam Sydus18 febbraio 2026

Un brand di moda di medie dimensioni può avere 2.000-5.000 SKU attivi in catalogo e aggiungerne 500-1.500 ogni nuova stagione. Ognuno di questi prodotti deve essere classificato per categoria, genere, colore, materiale, pattern, occasione d'uso, una serie di attributi strutturati che alimentano il sito e-commerce, il sistema ERP, le campagne di marketing e i motori di ricerca interni.

Il processo manuale è lento (2-5 minuti per prodotto), costoso (personale dedicato o outsourcing), e inconsistente (classificatori diversi usano criteri diversi). La computer vision automatizza l'estrazione di questi attributi strutturati direttamente dalle foto di catalogo, con un'accuracy che supera quella umana sulle categorie ben definite.

La pipeline di riconoscimento automatico

Il processo si articola in cinque fasi principali.

1. Input: acquisizione delle immagini

Le foto di catalogo sono tipicamente scattate su sfondo bianco o neutro, con illuminazione controllata. Questa standardizzazione è un vantaggio: riduce la variabilità di cui il modello deve tenere conto rispetto a immagini generiche.

L'input può arrivare da diverse fonti: upload diretto nel sistema PIM (Product Information Management), cartelle condivise dall'agenzia fotografica, o integrazione con il sistema DAM (Digital Asset Management) aziendale.

2. Preprocessing

Le immagini vengono ridimensionate alla risoluzione di input del modello (tipicamente 224×224 o 384×384 pixel), normalizzate per canale RGB, e sottoposte a rimozione dello sfondo se necessario. La rimozione dello sfondo, oggi gestita automaticamente da modelli come rembg o Segment Anything di Meta, isola il prodotto e riduce il rumore nei descrittori visivi estratti.

3. Feature extraction con EfficientNet o ViT

Il cuore della pipeline è un modello di deep learning pre-addestrato su ImageNet e poi fine-tuned sul dataset di prodotti del brand. I modelli più usati in produzione sono:

EfficientNet-B4: buon bilanciamento tra accuracy e velocità di inferenza, adatto a pipeline batch
Vision Transformer (ViT-B/16): accuracy superiore su dataset di grandi dimensioni, migliore generalizzazione su nuovi stili

Il fine-tuning parte da un modello pre-addestrato (transfer learning) e aggiorna i pesi sugli ultimi layer usando il dataset specifico del brand. Il vantaggio del transfer learning è che la rete ha già imparato a riconoscere texture, forme e colori generali: deve solo imparare a classificarli secondo la tassonomia del brand.

4. Classificazione multi-task

Un singolo forward pass produce in parallelo le previsioni per tutti gli attributi:

Categoria merceologica (top, bottom, outerwear, dress, footwear, bag, accessory)
Genere (uomo, donna, unisex)
Colore dominante (mappa su palette stagionale del brand)
Pattern (tinta unita, righe, quadretti, stampa floreale, geometrica, animalier)
Materiale (cotone, lana, seta, denim, pelle, sintetico, quando visivamente distinguibile)

L'output è un dizionario di attributi strutturati con confidence score per ciascun valore predetto. Gli attributi con confidence sotto soglia vengono flaggati per revisione umana.

5. Integrazione con il PIM

Gli attributi estratti vengono inviati via API al sistema PIM aziendale, dove popolano i campi del prodotto. Il workflow tipico prevede una coda di review per i prodotti sotto soglia di confidence, dove un operatore umano conferma o corregge le previsioni del modello in pochi secondi (invece di catalogare da zero).

Accuracy raggiungibile

In base ai risultati ottenuti su diversi progetti nel settore moda, l'accuracy attesa è:

Attributo	Accuracy
Categoria macro (abbigliamento/calzature/accessori)	>98%
Categoria specifica (top/bottom/dress/etc.)	>92%
Colore dominante (mapping a palette)	>89%
Pattern (tinta unita vs. stampato)	>94%
Pattern specifico (tipo di stampa)	>82%
Materiale visivo (cotone vs. denim vs. pelle)	>78%

L'accuracy scende man mano che l'attributo richiede conoscenza contestuale o tecnica che non è visivamente distinguibile dalla sola immagine. Il materiale esatto, per esempio, spesso richiede informazioni di scheda tecnica che la sola foto non contiene.

Integrazione con il DAM e il PIM

L'integrazione con i sistemi aziendali esistenti è la parte spesso sottovalutata del progetto. Il modello di AI è una componente, ma il valore si realizza solo quando gli attributi estratti fluiscono automaticamente nei sistemi che li usano.

Il pattern più comune è:

Il fotografo carica le immagini nel DAM (Adobe Experience Manager, Bynder, o soluzioni custom)
Un webhook attiva la pipeline di classificazione
Gli attributi estratti vengono scritti nel PIM (Akeneo, Plytix, Salsify) via API
I prodotti con attributi incompleti o a bassa confidence vengono messi in coda di revisione
Il reviewer umano lavora solo su questa coda ridotta, confermando o correggendo in un'interfaccia dedicata

Il risultato è che il 70-80% dei prodotti viene catalogato completamente in modo automatico, e il personale si concentra sul 20-30% che richiede attenzione umana, invece di catalogare manualmente l'intero catalogo.

Con un catalogo di 1.000 nuovi SKU per stagione, il risparmio di tempo è nell'ordine di 30-60 giornate lavorative per stagione, a fronte di un investimento di progetto che si ammortizza in 1-2 stagioni.

Tag

computer-visionmodacatalogoriconoscimento-prodottideep-learning

Domande frequenti

Hai ancora dubbi?

Quante foto di training servono per categoria?

Con transfer learning da modelli pre-addestrati su ImageNet (EfficientNet, ViT), è sufficiente avere 500-1.500 immagini etichettate per categoria per raggiungere accuracy superiori all'85% su macro-categorie. Per attributi più granulari, come il riconoscimento di pattern specifici o materiali, servono 1.000-3.000 esempi per classe. La data augmentation (flip orizzontale, variazioni di luminosità e saturazione, leggere rotazioni) permette di triplicare il dataset effettivo senza raccogliere nuove immagini.

Il modello funziona con foto di bassa qualità?

La qualità delle immagini impatta direttamente sull'accuracy. Il modello funziona bene con foto standard da studio su sfondo bianco, che sono la norma nei cataloghi di moda. Con foto di bassa risoluzione (sotto 224×224 px) o con illuminazione molto irregolare, l'accuracy può scendere del 10-20%. In questi casi, un preprocessing automatico (normalizzazione dell'esposizione, upscaling con super-resolution AI) può mitigare il problema. Per immagini da fonti eterogenee come i social media, si raccomanda un layer di quality filtering prima dell'inferenza.

Come si gestisce il riconoscimento dei nuovi stili?

I modelli di classificazione sono chiusi sul set di categorie su cui sono stati addestrati. Per gestire nuovi stili, esistono due approcci. Il primo è il retraining periodico: ogni stagione si raccolgono campioni dei nuovi stili, si etichettano manualmente e si fa fine-tuning del modello. Il secondo è l'approccio few-shot learning, dove il modello impara a riconoscere nuove categorie da pochi esempi (5-10 immagini) senza retraining completo. Quest'ultimo è più flessibile ma richiede un'architettura progettata per il few-shot.

Continua a leggere

Computer vision su cataloghi moda: come automatizzare il riconoscimento prodotti

La pipeline di riconoscimento automatico

Accuracy raggiungibile

Integrazione con il DAM e il PIM

Hai ancora dubbi?

Articoli correlati

ModArchive: AI per la storia della moda del Novecento

ARIMA o Prophet? Come scegliere il modello di forecasting giusto per il tuo business

Visibility graph per analizzare serie temporali non stazionarie: teoria e applicazioni