AIToday Live

S08E54 - Tokenmaxxing: de nieuwe hype uit Silicon Valley

Aigency by Info Support Season 8 Episode 54

Use Left/Right to seek, Home/End to jump to start or end. Hold shift to jump forward or backward.

0:00 | 11:51

Joop Snijder, CTO bij Aigency, ziet organisaties AI-gebruik meten op tokenverbruik en adoptiepercentages, terwijl dat precies de verkeerde metriek is. Zodra tokengebruik een doel wordt, gaan medewerkers prompts verlengen en agents draaien voor taken die ze handmatig sneller doen, puur om hoog te scoren op een dashboard. Dit is Goodhart's law in de praktijk: de metriek stuurt gedrag, maar niet richting betere resultaten.

Joop analyseerde zijn eigen gebruik van Claude over meer dan 2400 berichten en ontdekte dat zijn berichten gemiddeld 84 tekens lang zijn, niet omdat hij weinig doet, maar omdat hij stuurt op richting en bijstuurt op wat hij ziet. Kijk morgen naar de AI-metrics in jouw organisatie: zijn het activiteitsmetrics of outcome-metrics zoals kwaliteit, doorlooptijd en foutreductie? Als het antwoord activiteitsmetrics is, heb je een gesprek te voeren.

Onderwerpen

  • Tokenmaxxing: het behandelen van AI-tokenverbruik als bewijs van productiviteit
  • Goodhart's law: hoe meetbare doelen leiden tot verkeerd gedrag
  • Extrinsieke motivatie en sociale vergelijking in AI-adoptie
  • Gevolgen van tokenmaxxing: energieverbruik, cognitieve vervuiling en verlies van vakmanschap
  • Outcomemaxxing: sturen op resultaat in plaats van AI-gebruik
Links

Genoemde entiteiten: OpenAI - NVIDIA - Claude - Silicon Valley

Stuur ons een bericht

Aigency
Aigency ontwerpt en ontwikkelt waardevolle, robuuste en betrouwbare Machine Learning-modellen.

Info Support
Info Support is de specialist in maatwerk software en leidend in kunstmatige intelligentie (AI).

Disclaimer: This post contains affiliate links. If you make a purchase, I may receive a commission at no extra cost to you.

Schrijf je in voor onze nieuwsbrief en ontvang exclusieve toegang tot nieuws, blik achter de schermen en meer!

1
00:00:02,160 --> 00:00:12,720
Welkom weer bij de korte aflevering van AIToday Live, ze hebben weer een nieuwe hype weten te creëren hoor in Silicon Valley.

2
00:00:14,239 --> 00:00:16,559
En daar ga ik het over hebben.

3
00:00:16,559 --> 00:00:20,160
Want de afgelopen jaren hebben we allerlei AI-hypes voorbij zien komen.

4
00:00:20,160 --> 00:00:29,759
Eerst ging het over wie de meeste GPU's had, daarna over wie de grootste modellen bouwde en vervolgens hoeveel AI-agents je organisatie draaide.

5
00:00:29,759 --> 00:00:33,839
Maar inmiddels lijkt Silicon Valley een nieuwe obsessie gevonden te hebben.

6
00:00:33,839 --> 00:00:35,439
Tokenmaxxing.

7
00:00:35,679 --> 00:00:44,160
Een term die misschien nog wat niche klinkt, maar die iets blootlegt, wat toch eigenlijk wel essentieel is.

8
00:00:44,160 --> 00:00:49,279
Want tokenmaxxing en je schrijft het zelfs met dubbel x, want het moet gemaximaliseerd worden.

9
00:00:49,280 --> 00:00:52,800
Tokenmaxxing gaat niet alleen over AI.

10
00:00:52,800 --> 00:01:00,720
Het gaat over hoe organisaties omgaan met meten, sturen, status, controle en menselijk gedrag.

11
00:01:00,719 --> 00:01:06,559
Kort gezegd, tokenmaxxing betekent dat organisaties en medewerkers het gebruik van AI-tokens.

12
00:01:06,560 --> 00:01:14,959
Het is feitelijk de hoeveelheid AI-consumptie gaan zien als bewijs van productiviteit, innovatiekracht of waardecreatie.

13
00:01:15,280 --> 00:01:19,519
Meer tokens betekent dan zogenaamd beter bezig zijn.

14
00:01:19,680 --> 00:01:21,200
Precies daar gaat het mis.

15
00:01:21,199 --> 00:01:25,200
Ik vind dit een zorgelijke en onwenselijke ontwikkeling.

16
00:01:25,199 --> 00:01:35,120
En niet alleen omdat het inefficiënt is, maar vooral omdat het blootlegt hoe wij technologie gebruiken om controle, status en schijnzekerheid te organiseren.

17
00:01:35,519 --> 00:01:43,119
Deze aflevering analyseer ik eerst wat tokenmaxxing is en waarom het zo goed past bij de cultuur van Silicon Valley.

18
00:01:43,439 --> 00:01:53,280
Daarna wil ik het ook met je over hebben over de psychologische en organisatorische mechanismen erachter, namelijk extrinsieke motivatie.

19
00:01:53,520 --> 00:01:58,079
Sociale vergelijking, FOMO en wat wordt genoemd Goodhart's law.

20
00:01:58,400 --> 00:02:01,999
Laten we beginnen met wat is tokenmaxxing.

21
00:02:02,319 --> 00:02:11,520
Die term ontstond rond de interne AI-dashboards bij grote technologiebedrijven waar medewerkers werden gerangschikt op basis van hun AI-gebruik.

22
00:02:11,519 --> 00:02:16,640
Hoeveel tokens zij verbruikten, hoeveel agents ze draaiden, hoeveel prompts ze stuurden.

23
00:02:16,639 --> 00:02:30,879
En wat begon als een stimulans om AI-tools te verkennen, veranderde langzaam in een statusspel en mensen gingen prompts verlengen, extra agents draaien, AI inzetten voor taken die eigenlijk sneller handmatig konden.

24
00:02:30,879 --> 00:02:36,000
Dus complete experimenten starten puur om tokenverbruik omhoog te krijgen.

25
00:02:36,159 --> 00:02:45,680
Niet omdat het zinvol is, maar omdat het dashboard zichtbaar is voor management dat dat meekijkt en collega's op die manier worden vergeleken.

26
00:02:45,680 --> 00:02:49,360
AI-native zijn werd dan een identiteitskenmerk.

27
00:02:49,680 --> 00:02:54,240
Het mechanisme herkennen we uit de gedragspsychologie.

28
00:02:54,240 --> 00:03:00,079
Mensen optimaliseren niet op wat belangrijk is, maar op wat zichtbaar beloond wordt.

29
00:03:00,639 --> 00:03:07,920
En dan zijn we bij Goodhart's law: when a measure becomes a target, it ceases to be a good measure.

30
00:03:08,400 --> 00:03:14,159
Oftewel, zodra tokengebruik een doel wordt, stopt het met een bruikbare indicator te zijn.

31
00:03:14,319 --> 00:03:18,079
Dan krijg je het gamen van de metriek.

32
00:03:18,079 --> 00:03:22,639
Gedrag dat goed scoort op het dashboard, maar weinig toevoegt aan echte waarde.

33
00:03:24,639 --> 00:03:28,240
Tokenmaxxing past eigenlijk perfect binnen de cultuur van Silicon Valley.

34
00:03:28,240 --> 00:03:34,640
Die al decennia lang een bijna religieuze fascinatie heeft met schaalbaarheid, kwantificering en optimalisatie.

35
00:03:34,639 --> 00:03:38,319
Alles moet meetbaar zijn, alles moet zichtbaar zijn in dashboards.

36
00:03:38,319 --> 00:03:41,520
En als het niet meetbaar is, bestaat het bijna niet meer.

37
00:03:42,079 --> 00:03:55,759
Dat is dezelfde cultuur die ooit programmeurs beoordeelde op lines of code of agile teams op velocity points en social media veranderde in een jacht op likes en engagement.

38
00:03:55,759 --> 00:04:02,159
Dus nu reduceert ze AI-gebruik tot tokenconsumptie.

39
00:04:02,160 --> 00:04:09,119
Het probleem is alleen dat complexe menselijke prestaties zich zelden laten reduceren tot een metriek.

40
00:04:09,120 --> 00:04:13,040
Hoe complexer het werk wordt, hoe gevaarlijker simplificatie wordt.

41
00:04:13,359 --> 00:04:17,600
Want goed werk bestaat vaak juist uit dingen die niet direct zichtbaar zijn.

42
00:04:17,600 --> 00:04:22,399
Twijfelen, nadenken, vertragen, reflecteren, een gesprek voeren.

43
00:04:22,719 --> 00:04:26,720
Een slechte oplossing juist niet bouwen, een agent niet starten.

44
00:04:26,879 --> 00:04:29,200
En dashboards kunnen daar slecht mee omgaan.

45
00:04:29,200 --> 00:04:31,760
Ze houden van tellen en niet van betekenis.

46
00:04:32,000 --> 00:04:40,959
En dus krijg je dan management-by-metric, zou je kunnen zeggen, een wereld waarin zichtbare activiteit verward wordt met daadwerkelijke waardecreatie.

47
00:04:41,840 --> 00:04:44,079
Waarom doen slimme mensen hier aan mee?

48
00:04:44,080 --> 00:04:46,800
Want vrijwel niemand staat 's ochtends op met de gedachte.

49
00:04:47,040 --> 00:04:50,879
Vandaag ga ik bewust inefficiënt AI gebruiken.

50
00:04:50,879 --> 00:04:54,720
En toch gebeurt het door een combinatie van verschillende mechanismen.

51
00:04:54,720 --> 00:04:57,200
De eerste is namelijk extrinsieke motivatie.

52
00:04:57,199 --> 00:05:03,479
Dat is als organisaties tokengebruik, expliciet of impliciet koppelen aan innovatie, zelfs promotiekansen.

53
00:05:04,040 --> 00:05:08,759
Dat je future readiness bent, future ready bent.

54
00:05:08,759 --> 00:05:10,280
Dan verschuift die motivatie.

55
00:05:10,279 --> 00:05:15,560
AI-gebruik zelf wordt dan het doel en niet betere besluitvorming.

56
00:05:16,439 --> 00:05:21,240
Intrinsieke motivatie draait om vakmanschap en betekenis.

57
00:05:21,240 --> 00:05:27,319
Extrinsieke motivatie draait om signalen, status en beoordeling en die twee botsen.

58
00:05:28,600 --> 00:05:33,800
Ik moet eigenlijk zeggen, zodra die twee botsen, dan wint vaak toch de metriek.

59
00:05:33,800 --> 00:05:36,280
En je hebt ook te maken met sociale vergelijking.

60
00:05:36,279 --> 00:05:39,079
Mensen vergelijken zichzelf continu met anderen.

61
00:05:39,079 --> 00:05:41,400
Dat is echt menselijk gedrag.

62
00:05:42,920 --> 00:05:45,959
Dashboards versterken dit mechanisme enorm.

63
00:05:45,959 --> 00:05:50,199
Want ineens zie je wie meer AI gebruikt, wie hoger staat op de leaderboard.

64
00:05:50,199 --> 00:05:54,040
Niemand wil degene zijn die achterblijft dus gaan mensen meedoen.

65
00:05:55,000 --> 00:06:05,560
En wat deze ontwikkeling extra wrang maakt, is dat sommige van de luidste stemmen achter deze trend direct economisch belang hebben bij meer tokenconsumptie.

66
00:06:05,560 --> 00:06:07,240
Neem NVIDIA.

67
00:06:07,560 --> 00:06:17,160
De CEO daarvan, Jensen Huang presenteert AI-gebruik consequent als iets dat exponentieel moet groeien.

68
00:06:17,720 --> 00:06:21,480
Meer inference, meer agents, meer compute.

69
00:06:21,480 --> 00:06:23,560
En vanuit zijn perspectief is dat logisch.

70
00:06:23,720 --> 00:06:30,359
NVIDIA verkoopt immers de GPU's die deze explosie aan tokenverbruik mogelijk maken.

71
00:06:30,360 --> 00:06:42,680
Maar wanneer de industrie die verdient aan compute tegelijkertijd het narratief bepaalt over wat goede AI-adoptie is, dan ontstaat er al een risico op hele perverse prikkels.

72
00:06:42,680 --> 00:06:52,120
Dan verschuift de discussie ongemerkt van hoe creëren we waardevolle AI-toepassingen naar hoe maximaliseren we AI-consumptie.

73
00:06:52,120 --> 00:07:00,280
Meer tokens betekent immers meer GPU-capaciteit, meer datacenterbelasting, meer energieverbruik.

74
00:07:00,279 --> 00:07:04,120
En daarmee dus meer afhankelijkheid van hyperscalers.

75
00:07:05,079 --> 00:07:10,920
Het is eigenlijk verbazingwekkend hoe kritiekloos sommige organisaties dit narratief overnemen.

76
00:07:10,920 --> 00:07:16,199
Alsof maximale AI-consumptie vanzelfsprekend gelijk staat aan innovatie.

77
00:07:17,959 --> 00:07:31,640
We weten ook dat meer vergaderen geen betere samenwerking betekent of meer e-mails betekenen geen betere communicatie en meer tokens verbruiken betekent niet automatisch dat je een betere organisatie wordt.

78
00:07:32,120 --> 00:07:36,280
En dan kun je zeggen, ach, laat Silicon Valley lekker experimenteren.

79
00:07:36,600 --> 00:07:43,560
Maar deze cultuur sijpelt door naar ondernemingen, overheden, consultancybedrijven en uiteindelijk de rest van de samenleving.

80
00:07:43,560 --> 00:07:46,840
En daar wordt het dan wel problematisch. Ten eerste het energieverbruik.
81
00:07:46,840 --> 00:07:52,680
Dus elke token kost energie en generatieve AI-systemen draaien op enorme datacenters vol GPU's.
 81
00:07:52,680 --> 00:08:00,200
En als organisaties massaal onnodige AI-interacties stimuleren, stimuleren ze ook zinloos energieverbruik.
 82
00:08:00,199 --> 00:08:07,400
terwijl we midden in de discussie zitten over netcongestie, verduurzaming en soms zelfs energie-armoede.
 83
00:08:09,000 --> 00:08:13,000
Tokenmaxxing maximaliseert computeconsumptie en niet waardecreatie.
 84
00:08:13,319 --> 00:08:17,160
Ten tweede bestaat dus cognitieve vervuiling.
 85
00:08:17,160 --> 00:08:23,959
Mensen worden continu aangemoedigd om meer AI te gebruiken, meer prompts, meer agents, meer context, meer tooling.
 86
00:08:23,960 --> 00:08:27,639
Maar cognitieve capaciteit is niet onbeperkt.
 87
00:08:28,120 --> 00:08:38,360
En technologie die bedoeld was om werkdruk te verlagen, creëert op deze manier extra mentale druk, omdat gebruik zelf onderdeel wordt van beoordeling.
 88
00:08:39,319 --> 00:08:41,879
En ten derde het verlies van vakmanschap.
 89
00:08:41,879 --> 00:08:55,639
Dus als volume belangrijker wordt dan kwaliteit, verschuift aandacht van kritisch denken naar outputproductie, dan wordt snelheid belangrijker dan reflectie en het draaien van agents belangrijker dan begrijpen wat er gebeurt.
 90
00:08:56,840 --> 00:08:59,480
Kijk, er is een alternatief.
 91
00:08:59,480 --> 00:09:05,000
En ik zou dat namelijk outcome maxxing willen noemen, doe ik ook lekker met twee x'en.
 92
00:09:05,000 --> 00:09:06,199
Outcome maxxing.
 93
00:09:06,200 --> 00:09:10,200
Kijk, ik gebruik zelf al meer dan een jaar dagelijks Claude.
 94
00:09:10,680 --> 00:09:17,480
Voor deze aflevering heb ik mijn eigen chatgeschiedenis doorgenomen, meer dan 2400 berichten over meerdere sessies.
 95
00:09:17,480 --> 00:09:21,800
Wat eruit komt, is eigenlijk juist het tegenovergestelde van tokenmaxxing.
 96
00:09:21,799 --> 00:09:26,759
Het blijkt dat mijn berichten zijn gemiddeld 84 tekens lang.
 97
00:09:27,079 --> 00:09:28,760
Geen woorden, nee, tekens lang.
 98
00:09:28,759 --> 00:09:37,080
En niet omdat ik lui ben, maar dit is wat Claude teruggaf naar deze analyse.
 99
00:09:37,079 --> 00:09:42,759
Niet omdat ik lui ben, maar omdat ik stuur op richting en dan bijsturen op wat ik zie.
 100
00:09:42,759 --> 00:09:47,120
Ik gebruik Claude als een collega die meedenkt.
 101
00:09:44,840 --> 00:09:51,199
En niet als een machine die ik maximaal moet laten draaien.
 102
00:09:51,440 --> 00:09:58,720
De vraag die ik mezelf het vaakst stel is niet heb ik genoeg AI gebruikt vandaag, maar werkt het systeem daarna beter.
 103
00:09:58,720 --> 00:10:03,360
Ik gebruik weinig tokens per bericht maar elk bericht is beslissend.
 104
00:10:04,480 --> 00:10:06,560
Dit is wat er ook terugkwam.
 105
00:10:06,559 --> 00:10:10,160
Je waarde zit niet in het volume van het AI-gebruik.
 106
00:10:10,159 --> 00:10:12,319
Het zit in de kwaliteit van de sturing.
 107
00:10:12,320 --> 00:10:16,799
De scherpte van de correcties en de vraag of het systeem daarna beter werkt.
 108
00:10:16,799 --> 00:10:18,799
Dat is de vraag die ertoe doet.
 109
00:10:18,799 --> 00:10:20,879
Dus niet het tokenverbruik.
 110
00:10:21,519 --> 00:10:24,959
Dat is dan precies wat ik bedoel met het alternatief.
 111
00:10:25,200 --> 00:10:29,360
Betekent dit dat AI-gebruik helemaal niet meetbaar mag zijn, nou denk ik niet.
 112
00:10:29,679 --> 00:10:34,159
Maar het betekent wel dat we fundamenteel anders moeten kijken naar succes.
 113
00:10:34,159 --> 00:10:37,680
Dus niet tokenmaxxing, maar outcome maxxing.
 114
00:10:37,840 --> 00:10:39,759
De uitkomst maximaliseren.
 115
00:10:39,759 --> 00:10:50,720
Niet sturen op hoeveel prompts iemand gebruikt, hoeveel agents draaien of hoeveel tokens worden verstookt, maar op vragen als neemt de kwaliteit toe, dalen fouten, verbeteren doorlooptijden, dat soort vragen.
 116
00:10:52,480 --> 00:10:56,399
Dit zijn outcome-metrics die de uitkomst meten.
 117
00:10:56,399 --> 00:11:00,960
En dat is moeilijker te meten, want echte waarde laat zich wat minder makkelijk vangen.
 118
00:11:01,200 --> 00:11:03,200
Juist daarom zijn ze belangrijker.
 119
00:11:03,200 --> 00:11:12,959
Je kunt herkennen dat een organisatie doorslaat richting tokenmaxxing als medewerkers AI gebruiken voor triviale taken puur om activiteiten zichtbaar te maken.
 120
00:11:13,279 --> 00:11:17,439
Als er competitie ontstaat rondom AI-gebruik.
 121
00:11:17,440 --> 00:11:25,519
En als tokenbudgetten onderdeel worden van status of als managers meer praten over adoptiepercentages dan over resultaten.
 122
00:11:25,519 --> 00:11:28,720
Als je dat ziet, moet er een alarmbel afgaan.
 123
00:11:28,960 --> 00:11:36,559
Want uiteindelijk gaat digitale volwassenheid niet over hoeveel tokens je verstookt, maar over hoeveel betekenisvolle waarde je creëert.
 124
00:11:36,879 --> 00:11:41,440
Dankjewel weer voor het luisteren naar deze aflevering vergeet niet.
 125
00:11:41,600 --> 00:11:46,160
AI is niet de oplossing van oud probleem, maar onmisbaar waar het past.
 126
00:11:46,480 --> 00:11:51,440
Tot de volgende aflevering.