Právě jsem si poslechl nejnovější díl podcastu Kanárci v síti věnovaný DeepSeek. Ty bláho, tam nezazněla snad jediná přesná informace, a to o psíku mluví 45 minut 🤦♂️
Jen během prvních pěti minut zaznělo:
- „dotáhl se v benchmarcích na americké modely“ – Ne tak docela. DeepSeek dosahuje úrovně amerických modelů starých 7–10 měsíců. Pouze v některých specifických testech překonává i nejnovější modely.
- „Číňani říkají, že to vytvořili za daleko menší peníze“ – Neříkají. DeepSeek uvedl, že finální fáze tréninku stála 5,576 milionu dolarů, ale to je jen malá část celkových nákladů. Je to jako počítat u filmu pouze cenu filmové pásky.
- „rozpočet na vytvoření GPT 4o je 100 milionů dolarů“ – OpenAI nikdy nezveřejnila náklady na vývoj svých modelů, toto číslo je čistá spekulace.
- „říkají, že to natrénovali na starších verzích nvidia karet“ – Ne, používají nové karty Nvidia H800, které jsou kvůli americkým sankcím ořezané oproti plné verzi H100.
- „vydali to v několika verzích, které můžete spustit na laptopu apod“ – Ano, ale stejně jako jiné open source modely – v tomto ohledu není DeepSeek nijak výjimečný.
- „s open source modely začala Meta“ – Naopak, před GPT-3 bylo běžnou praxí, že AI modely byly otevřené.
- „když si povídáte s GPT, tak si povídáte s celou neuronkou“ – Toto je zastaralá představa. Moderní modely včetně DeepSeeku používají systém „expertů“, kdy se aktivují jen potřebné části sítě. Tento přístup používá už delší dobu například i francouzská společnost Mistral. A velmi pravděpodobně i OpenAI, ale ti holt nezveřejňují žádné informace.
Nakonec jsem se dozvěděl, že ho záměrně uveřejnili v pátek, těsně než se zavřel Wallstreet, takže byl celý víkend na to, aby to všichni pochopili, a když se v pondělí burza otevřela, akcie spadly 📉
Ach bože. Vidět za vším konspiraci je nemoc. 🤒
DeepSeek R1 vyšel v pondělí. Akcie spadly až o týden později. Takže jsem měl možnost ho několik dní spokojeně používat, než přišla hysterická vlna zájmu, a teď furt píše „The server is busy. Please try again later.“
Všechno, co potřebujete vědět o DeepSeek, jsem sepsal na blogu Uměligence.