DeepSeek – це генеративна модель штучного інтелекту з відкритим вихідним кодом, що базується на архітектурі Transformer і поєднує передові технології, такі як архітектура MoE, навчання зі змінною розрядністю та розподілена оптимізація. Вона добре зарекомендувала себе у галузі генерації тексту, мультимодальної обробки та адаптації під конкретні прикладні завдання. У книзі описано особливості глибоко оптимізованої архітектури DeepSeek-V3 та способи застосування моделі на практиці.
Теми, що розглядаються:
Теоретичні основи – базова архітектура та технології навчання моделей типу Transformer, механізм уваги DeepSeek, закони масштабування та їх застосування у оптимізації моделей.
Основні прийоми роботи – початок роботи з моделлю, знайомство з API, реалізація діалогу, функції зворотного виведення, кешування на диску та оптимізація кешу.
Розширене застосування – реалізація чат-клієнтів, інтелектуальних помічників, плагінів VS Code тощо.
Книга буде корисна дослідникам технологій генеративного ІІ, інженерам-розробникам програмного забезпечення, спеціалістам з обробки даних, а також усім бажаючим швидко освоїти практичне застосування великих мовних моделей.
| Інформація про книгу | |
| Обкладинка | Тверда |
| Кількість сторінок | 404 |
| Мова видання | Російська |
| Ілюстрації | Чорно-білі |
| Формат (розмір) | В5 |
| Папір | Офсет |