Toen Meta in februari 2023 LLaMA uitbracht — per ongeluk gelekt, officieel alleen voor onderzoekers — veranderde het AI-landschap voorgoed. Voor het eerst had de open source community een fundament om op voort te bouwen. Wat volgde was een ongekende acceleratie.
Van speeltje naar concurrent
In maart 2023 scoorde het beste open source model — LLaMA 65B — zo'n 64% op de MMLU-benchmark, een veelgebruikte maatstaf voor kennisgebaseerd redeneren. GPT-4 stond op dat moment op 86,4%. Een kloof van ruim 22 procentpunt.
Twee jaar later, begin 2025, scoort DeepSeek R1 90,8% op diezelfde benchmark — terwijl OpenAI's o1 op 91,8% staat. De kloof is van 22 procentpunt gekrompen tot slechts 1 punt. Op sommige benchmarks scoort open source zelfs hoger.
Open source vs. gesloten modellen — MMLU benchmark
MMLU benchmark scores van topmodellen per categorie (2023–2025)
De doorbraken van 2024
2024 was het jaar waarin open source modellen serieus werden genomen:
- →Llama 3.1 405B (Meta, juli 2024) was het eerste open source model dat op MMLU-niveau GPT-4 evenaarde. Met 405 miljard parameters bewijst het dat schaal niet exclusief is voor Big Tech.
- →Mixtral en Mistral Large (Mistral AI) lieten zien dat een Frans bedrijf met een fractie van de middelen modellen kan bouwen die concurreren met de Amerikaanse giganten.
- →DeepSeek V3 en R1 (DeepSeek, dec 2024–jan 2025) scoorden op veel benchmarks op het niveau van GPT-4o en Claude 3.5 Sonnet — en dat als volledig open source modellen met openbare gewichten.
- →Qwen 2.5 72B (Alibaba) werd een favoriet in de community voor zijn sterke meertalige prestaties en efficiënte architectuur.
2025–2026: de versnelling gaat door
Als 2024 het jaar van de doorbraak was, dan is 2025 het jaar waarin open source modellen de gesloten concurrentie daadwerkelijk inhaalden:
- →Llama 4 Scout & Maverick (Meta, april 2025) introduceerden Mixture-of-Experts in de Llama-familie. Scout heeft 109B totale parameters maar activeert er slechts 17B — met een contextvenster van 10 miljoen tokens. Maverick schaalt naar 400B totaal met 128 experts.
- →Qwen 3 (Alibaba, 2025) overtrof Llama als het meest gedownloade en meest gebruikte basismodel voor fine-tuning. Met hybride MoE-architectuur evenaarde het GPT-4o en DeepSeek-V3 op de meeste benchmarks.
- →DeepSeek-V3.2 (DeepSeek, 2025) werd een van de beste open source modellen voor redeneren en agentic workflows, met verbeterde efficiëntie voor lange contexten en tool-gebruik.
- →Qwen 3.5 (Alibaba, februari 2026) zette een nieuwe standaard. Het vlaggenschip Qwen3.5-397B-A17B scoort 91,3% op AIME 2026 en 76,4% op SWE-bench — op het niveau van GPT-5.2 en Claude Opus 4.6. Het 9B-model verslaat zelfs modellen die 13x groter zijn.
Kleiner maar krachtiger
Misschien nog indrukwekkender dan de grote modellen is de vooruitgang bij kleinere varianten. De Qwen3.5-9B verslaat OpenAI's GPT-OSS-120B — een model dat 13 keer zo groot is — op benchmarks als GPQA Diamond (81,7 vs. 71,5) en MMMU-Pro (70,1 vs. 59,7).
Dit betekent concreet: je kunt vandaag een model van 9 miljard parameters op je eigen laptop draaien dat beter presteert dan modellen waar je een jaar geleden een serverpark voor nodig had. Volledig offline, zonder abonnement, en met volledige privacy.
De ranglijsten spreken voor zich
Op de LMSYS Chatbot Arena — een platform waar gebruikers blind twee modellen vergelijken — staan open source modellen inmiddels structureel in de top 10 tussen gesloten giganten. Qwen 3.5 en DeepSeek-V3.2 concurreren direct met GPT-5.2 en Claude Opus 4.6.
Ook op de Open LLM Leaderboard van Hugging Face zie je de trend: elk kwartaal verschijnt er een nieuw model dat records breekt. De competitie tussen Meta, Mistral, DeepSeek, Alibaba en de community drijft de kwaliteit in een ongekend tempo omhoog.
Top open source modellen — maart 2026
| Model | Parameters | Min. VRAM | Sterk in |
|---|---|---|---|
| Qwen 3.5 397B-A17B | 397B (MoE, 17B actief) | 80+ GB | Redeneren, coderen, agentic AI |
| DeepSeek-V3.2 | 671B (MoE) | 80+ GB | Redeneren, lange context, tools |
| Llama 4 Maverick | 400B (MoE, 17B actief) | 80+ GB | Multimodaal, 1M context |
| Llama 4 Scout | 109B (MoE, 17B actief) | 24 GB | Multimodaal, 10M context |
| Qwen 3.5 9B | 9B | 8 GB | Verslaat modellen 13x groter |
| DeepSeek R1 | 671B (MoE) | 80+ GB | Redeneren, wiskunde |
Wat betekent dit voor jou?
De boodschap is helder: je hebt geen duur abonnement meer nodig voor krachtige AI. Met een fatsoenlijke GPU en gratis software als Ollama draai je modellen die twee jaar geleden science fiction waren.
En het gaat alleen maar sneller. Elke maand verschijnen er nieuwe modellen die efficiënter zijn, beter presteren en op minder hardware draaien. De trend is onmiskenbaar: open source AI is niet langer een compromis — het is een volwaardig alternatief.
Zelf aan de slag?
Op onze homepagina vind je een stap-voor-stap handleiding om vandaag nog je eerste lokale AI-model te draaien.