Entro il 2026, molti team hanno imparato a proprie spese che le dashboard di attribuzione possono sembrare “corrette” e, allo stesso tempo, rispondere alla domanda sbagliata. La domanda di business è semplice: la pubblicità ha creato risultati che non sarebbero avvenuti comunque? L’incrementalità è la disciplina che misura quel “lift” causale con un controfattuale credibile, invece di rietichettare una domanda già esistente.
L’incrementalità è il valore aggiuntivo causato dalla pubblicità: acquisti, iscrizioni, lead o ricavi extra che compaiono in un gruppo esposto rispetto a un gruppo simile in cui gli annunci sono stati esclusi o ridotti. La parola chiave è causalità. Invece di distribuire il merito tra i touchpoint, modifichi deliberatamente l’esposizione e osservi cosa cambia nel risultato. Se non cambia nulla di rilevante, gli annunci potrebbero intercettare la domanda invece di crearla.
L’attribuzione tende a sovrastimare i canali che si trovano vicino alla conversione, soprattutto ricerca brand e retargeting. Le persone già propense all’acquisto hanno anche più probabilità di cliccare, cercare e convertire, quindi il canale che “compare per ultimo” può ricevere la quota maggiore di merito anche quando non sta guidando la decisione. Questo bias diventa più evidente quando la misurazione dentro gli strumenti pubblicitari diventa più modellizzata e aggregata e quando i vincoli di privacy riducono la quantità di collegamenti osservabili a livello utente.
Un test pratico per capire se un report è “basato sulla fede” è chiedersi: se domani spegnessimo questo canale, ci aspetteremmo che le conversioni riportate sparissero nella stessa proporzione e con la stessa velocità? Se non riesci a giustificarlo con un disegno sperimentale (o almeno con un disegno che si comporti come tale), il report è descrittivo, non causale. L’incrementalità ti dà un modo strutturato per quantificare ciò che l’azienda ha davvero guadagnato.
Aiuta distinguere due attività che spesso vengono mescolate. L’attribuzione è un sistema contabile: assegna il merito delle conversioni osservate tra i touchpoint. L’incrementalità è un esperimento: stima l’effetto causale della pubblicità confrontando i risultati in condizioni di esposizione diverse. Puoi usare l’attribuzione per l’ottimizzazione quotidiana, ma ti serve l’incrementalità per verificare se quell’ottimizzazione migliora davvero i risultati di business.
Questa distinzione non è teorica. I principali ecosistemi pubblicitari descrivono esplicitamente gli studi di lift come esperimenti controllati con gruppi test e controllo. Ad esempio, sia Google Ads Conversion Lift sia Meta Conversion Lift descrivono la suddivisione del pubblico idoneo in gruppi esposti e holdout e la misurazione della differenza nelle conversioni downstream come lift generato dagli annunci. Il linguaggio conta perché chiarisce cosa si sta stimando: non il merito, ma la causalità.
In pratica, i team che adottano questa impostazione smettono di discutere su quale modello “possegga” la conversione e iniziano a concordare su una domanda comune: cosa sarebbe successo senza la spesa? Quando questa diventa la base, è più facile individuare assunzioni deboli, impostare standard di test migliori ed evitare spostamenti di budget che si limitano a spostare domanda tra canali.
La maggior parte dei team non ha bisogno di un progetto su misura di inferenza causale per iniziare a misurare l’impatto incrementale. Tre disegni di test coprono la maggior parte dei casi reali: test geo-holdout, test con split del pubblico (holdout a livello utente) e test basati sul tempo. Ognuno può essere valido, ma ognuno ha anche modalità di fallimento prevedibili, quindi il “migliore” è quello compatibile con i tuoi vincoli e con i tuoi dati.
I test geo-holdout assegnano intere aree geografiche a trattamento o controllo e fanno girare la pubblicità geo-targettizzata di conseguenza. Google Research descrive gli esperimenti geo come concettualmente semplici e interpretabili quando progettati bene, con unità geografiche non sovrapposte assegnate a trattamento e controllo. I metodi geo sono particolarmente utili quando il tracciamento a livello utente è incompleto, perché possono basarsi su risultati aggregati regionali come ricavi, vendite in negozio, volume di lead o nuovi clienti.
I test con split del pubblico trattengono casualmente gli annunci da una parte degli utenti idonei, mentre li erogano normalmente al resto. Quando l’holdout è davvero random e l’applicazione è rigorosa, spesso è il disegno più pulito perché confronta persone simili. I test basati sul tempo, in cui alterni periodi “on/off” o “alto/basso” e modelli la differenza, possono essere utili ma sono anche i più facili da falsare, perché gli effetti di calendario raramente sono casuali.
Il geo-holdout è una scelta solida quando puoi targettizzare per area in modo pulito, il KPI è stabile a livello regionale e hai abbastanza aree per costruire un gruppo di controllo credibile. Evitalo quando hai pochi mercati, quando i risultati sono rumorosi per area o quando lo spillover è alto (per esempio, i clienti attraversano spesso i confini o le aree di consegna si sovrappongono). Se l’azienda ragiona già per territori e report settimanali di vendite, i test geo spesso si integrano bene con il modo in cui vengono prese le decisioni.
Lo split del pubblico è ideale quando il canale può far rispettare gli holdout in modo affidabile e quando la contaminazione è gestibile. La contaminazione avviene quando le persone nel gruppo holdout vedono comunque annunci tramite altri percorsi o identificatori, riducendo l’effetto misurato e rendendo i risultati più difficili da interpretare. Questo non invalida automaticamente un test, ma cambia ciò che puoi affermare: potresti misurare un “lift minimo in presenza di leakage” invece di un effetto causale pulito.
I test temporali sono più difendibili quando la domanda è stabile, i prezzi sono stabili e puoi escludere grandi fattori confondenti come promozioni, picchi di PR, vincoli di stock o shock stagionali. Se fai un test temporale durante un grande saldo, un lancio di prodotto o una settimana festiva, potresti stare misurando semplicemente il calendario. Quando si usano, i test temporali funzionano meglio come verifica direzionale, non come unica fonte di verità per grandi cambi di budget.

Inizia con un KPI primario e una decisione. Se stai decidendo il budget, il margine di contribuzione incrementale per ogni £ spesa è spesso più operativo del ricavo incrementale. Se stai decidendo se un canale vale la pena mantenerlo, conversioni incrementali e costo per conversione incrementale possono bastare. Poi definisci l’intervento con precisione: cosa cambia tra trattamento e controllo, cosa resta costante e cosa significa “successo” in termini operativi.
Per i dati, servono misurazioni coerenti tra i gruppi, un’unità di confronto stabile (aree o utenti) e un periodo pre-test per mostrare che trattamento e controllo si comportano in modo simile prima dell’avvio. Serve anche volume sufficiente per rilevare un effetto realistico. Molti team progettano involontariamente test che possono rilevare solo lift enormi; quando il risultato torna “inconcludente”, non è perché l’incrementalità sia sbagliata, ma perché il test non aveva la potenza per rispondere alla domanda.
Per la durata, l’obiettivo è coprire il ciclo d’acquisto e smussare pattern prevedibili come gli effetti del giorno della settimana e i comportamenti legati ai giorni di pagamento. Due-quattro settimane sono spesso un punto di partenza praticabile per molte realtà consumer, ma cicli più lunghi (ad esempio, lead B2B fino alla chiusura) possono richiedere finestre più ampie o l’uso di indicatori anticipatori con un piano di validazione successivo sui ricavi chiusi. Test brevi possono andare bene se il KPI è frequente e stabile; test lunghi non sono automaticamente migliori se aumentano il rischio di shock esterni.
Il lift è la differenza tra risultati di trattamento e controllo, riportata in termini assoluti e in percentuale. Una disciplina utile è tradurre il lift in valore economico: profitto lordo incrementale o margine di contribuzione, non solo ricavi. Un canale può generare volume incrementale e restare comunque una scelta scadente se il costo per risultato incrementale supera il tuo obiettivo una volta considerati rimborsi, sconti e costi di fulfilment.
L’incertezza va riportata con onestà. Invece di trattare l’esito come un verdetto sì/no, riporta un intervallo che rappresenti l’ordine di grandezza plausibile dell’effetto. Se la stima è +6% di lift ma l’intervallo va da -1% a +13%, l’interpretazione corretta è che il test non ha ancora vincolato l’effetto con precisione sufficiente per una decisione di scaling sicura. È un segnale sul design: potresti aver bisogno di più aree, più tempo o un KPI diverso.
La stagionalità è la ragione più comune per cui i team sovrastimano il lift. La protezione più semplice è anche la più convincente: mostra l’allineamento nel pre-periodo, poi la divergenza nel periodo di test, e documenta qualsiasi cosa che possa aver colpito solo uno dei lati (promozioni locali, vincoli di stock, eventi, azioni dei competitor). Se non puoi sostenere in modo credibile che trattamento e controllo abbiano vissuto condizioni esterne simili, dovresti considerare il risultato indicativo e non definitivo.