ModArchive: AI per la storia della moda del Novecento
Venti riviste, 695 numeri, quasi 7 milioni di token e un motore di ricerca visiva calibrato sui cataloghi del Bon Marché. Così ModArchive usa l'AI per raccontare la moda del Novecento.
Migliaia di prodotti nuovi ogni stagione da catalogare manualmente. La computer vision automatizza il riconoscimento con accuracy superiore al 92% sulle macro-categorie.
Un brand di moda di medie dimensioni può avere 2.000-5.000 SKU attivi in catalogo e aggiungerne 500-1.500 ogni nuova stagione. Ognuno di questi prodotti deve essere classificato per categoria, genere, colore, materiale, pattern, occasione d'uso, una serie di attributi strutturati che alimentano il sito e-commerce, il sistema ERP, le campagne di marketing e i motori di ricerca interni.
Il processo manuale è lento (2-5 minuti per prodotto), costoso (personale dedicato o outsourcing), e inconsistente (classificatori diversi usano criteri diversi). La computer vision automatizza l'estrazione di questi attributi strutturati direttamente dalle foto di catalogo, con un'accuracy che supera quella umana sulle categorie ben definite.
Il processo si articola in cinque fasi principali.
1. Input: acquisizione delle immagini
Le foto di catalogo sono tipicamente scattate su sfondo bianco o neutro, con illuminazione controllata. Questa standardizzazione è un vantaggio: riduce la variabilità di cui il modello deve tenere conto rispetto a immagini generiche.
L'input può arrivare da diverse fonti: upload diretto nel sistema PIM (Product Information Management), cartelle condivise dall'agenzia fotografica, o integrazione con il sistema DAM (Digital Asset Management) aziendale.
2. Preprocessing
Le immagini vengono ridimensionate alla risoluzione di input del modello (tipicamente 224×224 o 384×384 pixel), normalizzate per canale RGB, e sottoposte a rimozione dello sfondo se necessario. La rimozione dello sfondo, oggi gestita automaticamente da modelli come rembg o Segment Anything di Meta, isola il prodotto e riduce il rumore nei descrittori visivi estratti.
3. Feature extraction con EfficientNet o ViT
Il cuore della pipeline è un modello di deep learning pre-addestrato su ImageNet e poi fine-tuned sul dataset di prodotti del brand. I modelli più usati in produzione sono:
Il fine-tuning parte da un modello pre-addestrato (transfer learning) e aggiorna i pesi sugli ultimi layer usando il dataset specifico del brand. Il vantaggio del transfer learning è che la rete ha già imparato a riconoscere texture, forme e colori generali: deve solo imparare a classificarli secondo la tassonomia del brand.
4. Classificazione multi-task
Un singolo forward pass produce in parallelo le previsioni per tutti gli attributi:
L'output è un dizionario di attributi strutturati con confidence score per ciascun valore predetto. Gli attributi con confidence sotto soglia vengono flaggati per revisione umana.
5. Integrazione con il PIM
Gli attributi estratti vengono inviati via API al sistema PIM aziendale, dove popolano i campi del prodotto. Il workflow tipico prevede una coda di review per i prodotti sotto soglia di confidence, dove un operatore umano conferma o corregge le previsioni del modello in pochi secondi (invece di catalogare da zero).
In base ai risultati ottenuti su diversi progetti nel settore moda, l'accuracy attesa è:
| Attributo | Accuracy |
|---|---|
| Categoria macro (abbigliamento/calzature/accessori) | >98% |
| Categoria specifica (top/bottom/dress/etc.) | >92% |
| Colore dominante (mapping a palette) | >89% |
| Pattern (tinta unita vs. stampato) | >94% |
| Pattern specifico (tipo di stampa) | >82% |
| Materiale visivo (cotone vs. denim vs. pelle) | >78% |
L'accuracy scende man mano che l'attributo richiede conoscenza contestuale o tecnica che non è visivamente distinguibile dalla sola immagine. Il materiale esatto, per esempio, spesso richiede informazioni di scheda tecnica che la sola foto non contiene.
L'integrazione con i sistemi aziendali esistenti è la parte spesso sottovalutata del progetto. Il modello di AI è una componente, ma il valore si realizza solo quando gli attributi estratti fluiscono automaticamente nei sistemi che li usano.
Il pattern più comune è:
Il risultato è che il 70-80% dei prodotti viene catalogato completamente in modo automatico, e il personale si concentra sul 20-30% che richiede attenzione umana, invece di catalogare manualmente l'intero catalogo.
Con un catalogo di 1.000 nuovi SKU per stagione, il risparmio di tempo è nell'ordine di 30-60 giornate lavorative per stagione, a fronte di un investimento di progetto che si ammortizza in 1-2 stagioni.
Tag
Domande frequenti
Quante foto di training servono per categoria?
Con transfer learning da modelli pre-addestrati su ImageNet (EfficientNet, ViT), è sufficiente avere 500-1.500 immagini etichettate per categoria per raggiungere accuracy superiori all'85% su macro-categorie. Per attributi più granulari, come il riconoscimento di pattern specifici o materiali, servono 1.000-3.000 esempi per classe. La data augmentation (flip orizzontale, variazioni di luminosità e saturazione, leggere rotazioni) permette di triplicare il dataset effettivo senza raccogliere nuove immagini.
Il modello funziona con foto di bassa qualità?
La qualità delle immagini impatta direttamente sull'accuracy. Il modello funziona bene con foto standard da studio su sfondo bianco, che sono la norma nei cataloghi di moda. Con foto di bassa risoluzione (sotto 224×224 px) o con illuminazione molto irregolare, l'accuracy può scendere del 10-20%. In questi casi, un preprocessing automatico (normalizzazione dell'esposizione, upscaling con super-resolution AI) può mitigare il problema. Per immagini da fonti eterogenee come i social media, si raccomanda un layer di quality filtering prima dell'inferenza.
Come si gestisce il riconoscimento dei nuovi stili?
I modelli di classificazione sono chiusi sul set di categorie su cui sono stati addestrati. Per gestire nuovi stili, esistono due approcci. Il primo è il retraining periodico: ogni stagione si raccolgono campioni dei nuovi stili, si etichettano manualmente e si fa fine-tuning del modello. Il secondo è l'approccio few-shot learning, dove il modello impara a riconoscere nuove categorie da pochi esempi (5-10 immagini) senza retraining completo. Quest'ultimo è più flessibile ma richiede un'architettura progettata per il few-shot.
Continua a leggere
Venti riviste, 695 numeri, quasi 7 milioni di token e un motore di ricerca visiva calibrato sui cataloghi del Bon Marché. Così ModArchive usa l'AI per raccontare la moda del Novecento.
Due approcci diversi per prevedere il futuro dai dati storici. Capire le differenze tra ARIMA e Prophet può fare la differenza tra una previsione accurata e un modello inutilizzabile.
ARIMA e i metodi classici assumono stazionarietà. I visibility graph lavorano dove questi falliscono: serie finanziarie, energetiche, climatiche con cambi di regime improvvisi.