V minulém článku jsme se podívali, jak si vytvořit svého virtuálního influencera. Co by to ale bylo za influencera bez pořádných videí? Proto se nyní podíváme na cesty, jak je vytvářet.
| Veo3, plné video na Instagramu. |
Úplně první rozhodnutí, co musíte udělat je, jestli budete generovat na vlastním zařízení nebo v cloudu. Proto, abyste mohli fotky nebo videa generovat na svém počítači potřebujete high-endové zařízení s grafickou kartou za desítky tisíc, co desítky gigabajtů grafické paměti. Pokud ho nemáte musíte vzít zavděk cloudovými službami. Ty ale mívají různá omezení explicitního obsahu. Na druhou stranu u nich nehrozí, že budete mít spotřebu elektřiny jako menší město. Následující návod slouží především pro cloudová řešení.
Základní pravidlo: Všechny návody na generativní umělou inteligenci velmi rychle zastarávají. Co funguje dnes, za měsíc může fungovat úplně jinak. Druhé pravidlo: předtím, než někam nahrajete své fotky, piďte se potom, co s nimi daná společnost spravující cloudový generátor dělá. Třetí pravidlo: Berte s rezervou bombastická produktová videa od startupů, jež si nemůžete zdarma ani vyzkoušet v trial verzi. Realita bývá o poznání méně bombastická.
Jakými způsoby se generují videa?
Ty si vypůjčíme z modelu Veo3. Pro základní představu to bude bohatě stačit:
- Podle promptu - čili podle textového zadání
- Generování podle úvodní, případně i závěrečné fotky a textového promptu, v kterém popíšete, co se má dál s fotkou dít
- Generování podle ingrediencí - čili modelu dodáte fotky, z kterých má vycházet, on sám si je spojí dohromady a vytvoří video obsahující jednotlivé elementy z fotek podle vašeho promptu, v kterém popisujete, co má vytvořit. Bylo by úžasné, kdyby tato možnost fungovala spolehlivě...
Dále většinou je volba nastavení formátu videa (širokoúhlý, čtverec, na výšku), případně různá nastavení kamery nebo styly videa (kreslené, světlo zlaté hodinky, 3D animák apod.).
Co je to prompt a jak ho psát?
Většina modelů přijímá prompty primárně v angličtině. Některé ho přijmou i v češtině (Veo3 nebo Grok), ale většinou si ho pro sebe do angličtiny stejně překládají. Prompt říká modelu, jaké video má pro vás vytvořit, co v něm má být, co se má dít, jaké zvuky ozývat (pokud umí generovat i zvuk). V zásadě platí, že čím jednoznačnější a úplnější prompt, tím dostanete lepší výsledky. Ačkoliv ne vždy to platí na 100 %. Prompt se dá i překombinovat.
Každý model/generátor má svůj specifický formát a strukturu promptu, co preferuje, a s každým jeho novým updatem nebo novou verzí, se to více či méně mění. Naštěstí na internetu najdete pro velké a významné modely dopodrobna vypracované příručky, jak správně psát prompt.
- průvodce promptováním pro model Veo3 (nástroj Flow): https://github.com/snubroot/Veo-3-Prompting-Guide
- průvodce promptováním pro Sora2: https://cookbook.openai.com/examples/sora/sora2_prompting_guide
Nejlépe se mi osvědčilo otevřít chatbota, zapnout myslící mód (reasoning) a napsat si prompt ve stylu:
Pomůžeš mi s přípravou promptu pro generování videa v modelu Veo3. Budeš vycházet z guidu, jak psát prompty na https://github.com/snubroot/Veo-3-Prompting-Guide. Chci vytvořit fotorealistické video o ... Model bude vycházet ze startovní fotografie. Délka videa je přesně 8 vteřin. Nevymýšlej si. Pokud potřebuješ další informace, ptej se.
Se zvukem nebo bez?
Starší a jednodušší generátory neumí generovat videa se zvukem. Pokročilejší modely to zvládnou se zvukem, a to i včetně mluvené češtiny. Jmenovitě to podle mě jde nejlépe modelu Veo3. Zvládá rozdílné nuance a je to plně poslouchatelné. Celkem pokročile to umí i Sora2. Grok se dá donutit k mluvení česky také, ale často vynechává písmenka a celkově jím generované audio má k dokonalosti fakt daleko.
Veo3 dokážete se vhodným promptem naučit i zpívat, ale musíte počítat s omezením jednotlivých scén na 8 vteřin. Ne vždy to vyjde úplně ideálně. Občas má Veo problém navázat nebo vám nedokončí větu.
Občas se mu daří lépe:
Generování zvuku Eleven Labs
Pokud potřebujete jen mluvený komentář a nikoliv mluvící postavy, můžete si zvuk vygenerovat zvlášť v Eleven Labs. Umí udržovat konzistentní hlas postav a zvládá i češtinu. Pokud půjdete touto cestou, bez dodatečného sestříhání videa se neobejdete.
Způsoby využití generátorů videa
- Rozpohybování fotky
- Tvorba krátké animace z obrázku
- Tvorba fotorealistického obsahu/instagramového reelu/Youtube videa
Rozpohybování fotky nebo obrázku bravurně zvládá Grok. Ani mu nemusíte psát prompt, ale jen stisknete tlačítko Vytvořit video. Můžete si zvolit z módů Spicy (někdy chybí), Fun a Normal. Pokud chcete něco speciálnějšího, budete muset napsat prompt. Instrukce zvládá i v češtině. Také generuje zvuk, ale většinou velmi špatný a podkresovou hudbu zvládá bídně i s instrukcemi. S jasnými instrukcemi zvládá i celkem obstojnou mluvu v češtině. Na druhou stranu si to tady můžete snadno natrénovat, protože denně pustí generaci cca 30-50 videí zdarma. Jen mívá často výpadky.
Meta.ai je vhodná na experimentování s generováním fotek, jejich úpravami a promptováním videí. Má velmi štědré limity (já žádný nezaznamenal) a dá se na ní hezky učit a zkoušet bez trápení své peněženky. Videa ale dělá bez zvuku (nebo aspoň u mě vždycky) a až poté nabízí vložení hudby do videa.
Zde Meta.ai vygeneroval na základě jednoho videa další v jiném stylu:
Špičkou jsou Veo3 od Googlu a Sora2 od OpenAI stojící za ChatGPT.
Model Veo3 vám dá měsíčně do základu 100 kreditů a vygenerujete s nimi 5
videí v nastavení Veo3 Fast. Můžete v něm používat i Scene Builder, kam vložíte vygenerované video, můžete ho oříznout na časové ose nebo na něj navázat
prodloužením včetně promptu.
Velmi otravnou vlastností googlích modelů Nano Banana pro fotky i Veo3 pro videa je, že opakovaně spuštěný stejný prompt dává prakticky identické výsledky. Prompt "žena na pláži" dodá tu stejnou ženu na pláži. Pokud máte štěstí v mírně odlišné pozici. To samé platí o generátoru videí. Pokud si myslíte, že si ušetříte práci při psaní promptu bez přesné specifikace, co má ve videu být, že to model náhodně dovymyslí, jste na omylu. Pokud se najde někdo podobný, budete mít prakticky stejné fotky nebo videa.
Této slabiny se ale dá i využít ve váš prospěch: a) pokud vám Nano Banana nechce vygenerovanou úvodní fotku vhodně upravit, pořád tvrdí, že úpravu provedl, ale ve skutečnosti se nic nezměnil, stačí vytvořit nový chat a generovat komplet nanovo s upraveným promptem. Podobná logika platí i pro videa. b) Tuto vlastnost využijeme i při generování mluvící postavy napříč několika generacemi, když potřebujete delší monolog. V rámci scene builderu prodloužíme videa, zachováme naprostou většinu promptu, ponecháme totožnou část s nastavením audia, jen změníme text, co postava říká. Díky tomu zachováme barvu hlasu i jeho styl.
Prompt: Vizualizuj tento vtip: Povídají si dvě blondýny v českém jazyce: první blondýna: Už jsi to slyšela? Našeho kominíka srazilo auto. druhý blondýna: To je strašný, člověk už ani na střeše není v bezpečí! Audio dialogu je v českém jazyce. Dvěma ženskými hlasy, jež patřím blondýnám z vtipu. První blondýna je krásná štíhlá kolem 20 let, má červené tílko s velkým výstřihem a černou minisukni druhá blondýna má krátké mini šaty s výstřihem měděné barvy. Sedí na pohovce v americkém baru, který se podobná tomu ze seriálu Přátelé. Popijí přitom koktejl.
Sora2 je oficiálně stále dostupná jen v USA a potřebujete pozvánku. Pozvánku si můžete sehnat na oficiálním Discordu. Stačí otevřít příslušný topic a chvíli čekat a velmi rychle kód použít. Následně pro přístup k Sora2 musíte být připojení k americké VPN. Bohatě na to stačí bezplatná VPNka integrovaná přímo do Opery.
Prompt: Video description (primary)
A vertical-format cinematic video featuring a beautiful model with long flowing hair running along a white sandy beach in the Seychelles during a warm sunset. The ocean is calm with soft waves, the sky glows orange-pink, and palm trees gently move in a light breeze.
The model wears light beachwear suitable for athletic movement.
Camera is smooth, lightly drifting, with natural motion (no jitter).
No subtitles.
Action sequence
1) Running – The model runs barefoot along the shoreline, sand kicking lightly behind her, sunset glow on her skin and hair.
2) Cartwheel – She transitions smoothly into a clean gymnastics-style cartwheel on the sand.
3) Salto over a rock – She approaches a larger rock on the beach and performs a graceful forward flip, landing confidently on the other side.
4) Closing line – She slows down, turns toward the camera in a medium shot, smiles warmly, and says:
Spoken line (Czech):
„Užijte si svátky a bohatého Ježíška.“
Her voice is pleasant, friendly, and natural.
Environment & style constraints
- Seychelles-style beach with turquoise water, white sand, and palm shadows.
- Sunset lighting: golden hour, soft, warm, cinematic.
- Hair reacts realistically to movement and sea breeze.
- Movements must be fluid, athletic, physically correct.
- No other people visible.
- No subtitles or on-screen text.
Sora2 dělá vizuálně velmi hezké videa, jen mi občas vytrvale ignoruje některé části promptu a takřka neexistuje ji přinutit k tomu, aby postava mluvila monolog přesně slovo od slova, jak ho napíšete. Když Soru nepoužíváte přes API, je také nemožné se zbavit nehezkého a velkého vodoznaku, co tam vkládá a průběžně rotuje po celém videu včetně vaší přezdívky. K tomu mi přijde, že videa jsou opravdu velmi komprimovaná. Ale tou největší její nevýhodou je, že vám nikdy neudělá fotorealistické video osoby z úvodního snímku. Generování selže s tím, že to odmítá udělat kvůli ochraně soukromí. I kdyby vám tu fotku předtím vygenerovala sama. Navíc vám o tom nedá vědět a na oko předstírá, že generuje. V seznamu draftů, ale najdete tento prompt se zprávou, že generování selhalo.
Prompt: Create a 15-second realistic cinematic video in 16:9. Two-scene structure. No subtitles or on-screen text of any kind.
Overall setting:
- Stylish European café in Prague’s Karlín district.
- Warm late-afternoon light, wooden tables, modern interior, slightly blurred background with a few other guests.
- Two women sit at a small café table facing each other at a slight angle.
- Brunette on the left, redhead on the right.
- Brunette drinks cappuccino from a ceramic cup. Redhead drinks café latté from a tall glass.
- Both women are around 35, attractive, well-dressed in stylish but different outfits and color palettes.
- Natural café ambience: quiet background chatter and clinking dishes, but no intelligible background speech.
CHARACTER RULES:
- Only the brunette speaks full lines.
- The redhead does NOT speak any full words; she only reacts with subtle facial expressions and a small nod.
- No one laughs during the entire video.
CAMERA STYLE:
- Slightly dynamic throughout: gentle forward drift and subtle shoulder-level motion, like a natural handheld camera.
- Depth of field: faces in clear focus, background softly blurred.
SCENE 1 — FIRST SENTENCE + NOD REACTION (about 7 seconds)
Framing:
- Medium shot of both women at the table, slightly closer to the brunette, but both are clearly visible.
- Camera slowly, gently moves closer to them.
Actions:
1. At the beginning, both women briefly take a sip of their drinks.
- The brunette takes a sip of her cappuccino and lowers the cup back to the saucer.
- The redhead takes a sip of her latté and sets the glass down.
2. After putting her cup down, the brunette turns her head and looks directly at her friend (the redhead).
- While maintaining eye contact with the redhead, the brunette clearly says in Czech, with accurate lip-sync:
„Můj manžel zestárl!“
- Her facial expression is dry, slightly resigned, not amused.
3. Right after this first sentence:
- The redhead reacts with a small, subtle nod, as if silently agreeing or saying “hm, fakt”
- The redhead does not say any word out loud; this is a purely non-verbal reaction.
Behavior constraints:
- During this scene, only the brunette’s lips move in a way that looks like clear speech.
- The redhead’s reaction is limited to a small nod and slight change in facial expression, with no articulated words.
SCENE 2 — FULL PUNCHLINE + FINAL REACTION (about 8 seconds)
Framing:
- New shot from a slightly closer angle, still a medium shot focused more on the brunette’s upper body and face, but the redhead remains partially visible.
- The camera continues a gentle inward movement, emphasizing the intimacy of the conversation.
Actions:
1. At the start of this scene:
- The redhead briefly glances at the brunette, then looks back at her own drink.
- The brunette gently touches or adjusts her cappuccino cup, then raises her eyes to look at the redhead again.
2. While maintaining eye contact with the redhead, the brunette delivers the second part of the joke in Czech, with accurate lip-sync:
„Nejdřív si prohlíží jídelní lístky a až potom servírku.“
- Tone: dry, slightly ironic, not exaggerated, no smile.
- medium shot of the speaking woman
3. Immediately after she finishes speaking:
- The redhead looks down into her latté glass, as if processing the joke with a slightly tired or resigned expression.
- She can make a very subtle reaction, like a tiny exhale through the nose, a slight raise of one eyebrow, or a faint tightening of the lips, but she does NOT smile or laugh.
- She does not respond verbally; no additional lines of dialogue.
Behavior constraints:
- Only the brunette moves her lips in a clearly speaking way for both Czech sentences.
- The redhead never delivers any spoken line; she communicates only with nods, changes in gaze, and subtle facial expressions.
- Neither woman laughs or breaks into a big smile; keep the mood dry and slightly cynical.
GLOBAL CONSTRAINTS:
- No subtitles, no captions, no on-screen text at all.
- Maintain the same character appearances, outfits, hair, and café environment in both scenes for perfect continuity.
- Keep the audio mix natural: Czech dialogue clearly audible, café ambience quiet and unobtrusive underneath.
Co čekat, když se pustíte do generování videa?
Rozhodně nelze čekat, že hned na první pokus dostanete hezké a použitelné video, i kdybyste měli naprosto dokonalý prompt. Většinou to bývá plno zkoušení, dlouhého čekání na výsledky (čeká se cca 20-60 vteřin na 1 video) a nakonec improvizace a prohlížení předchozích výsledků a rozhodování, co by se jakž takž dalo použít.
Takže si nemyslete, že jestliže máte bezplatný účet se 100 kredity na model Veo3 a jedno osmivteřinové video ve Veo3 Fast stojí 20 kreditů, že s dobrými prompty vytvoříte na jeden zátah 40 vteřin dlouhé video... Je to asi tak pravděpodobné jako výhra ve Sportce.
Kolik to stojí?
Generování videí není levné. Většina cloudových služeb převzala model kreditů na základě měsíčního předplatného. Hezky se to vysvětluje na příkladu modelu Veo od Googlu. Zdarma dostane každý měsíc 100 AI kreditů. Vygenerované video má pevnou délku 8 vteřin. V nastavení Veo3 Fast stojí jeho generace 20 kreditů.
Pokud vám kredity zdarma nestačí, můžete si předplatit tarif Google AI Pro za 549,99 Kč měsíčně, který vám dodá 1000 AI kreditů. Na měsíc, nikoliv na den. Když se budete marně stále snažit vytvořit nějaké video podle vaší přesné představy, nebudou se vám líbit dodané výsledky, budete dvě tři scény x-krát přegenerovávat, zvládnete všechny kredity zkonzumovat za hodinu nebo dvě a nebudou stačit ani na půl minuty dlouhé video.
S čím mají současné generátory problémy
- Nevyhovuje vám něco ve videu, co vygenerovala AI, chcete to jinak a AI i na několikátý pokus selhává? Pak se může jednat o to, že AI nebyla dostatečně natrénovaná na daný prompt. Základní problém je, že AI umí udělat jen to, co se naučila ze studijních dat. Pokud si v promptu vymyslíte něco, co neumí, budou vám dodávat velmi rozporuplné výsledky. Pokud něco, u čeho měly jen velmi málo dat, budou vám dodávat pořád jen jeden velmi podobný výsledek.Pokud máte velmi specifickou představu, co chcete udělat, a nebude se vám líbit ani několikáté řešení od AI, tak mnohdy bývá jednodušší si to video vytvořit sám. Podobně jako u obrázkových generátorů. Jejich výsledky se ale dají mnohem snadněji korigovat ve Photoshopu.
- Žádný současný model neumí s grácií vytvořit dialog více postav takovém pořadí, jak napíšete v sebedokonalejším promptu. Je to spíš o náhodě, jestli to trefí.
- Generátory fotek mívají velký problém při character referency s usazením osoby do auta. Od toho se odvíjí i problém videogenerátorů s osobami řídícími auto. Většinou to bývá velká špatná.
- Máte nějaké dřív vygenerované video od AI a chcete v něm něco změnit? Obvykle to není vůbec možné, jedině, že byste vygenerovali video znovu podle stejného promptu a nastavení.
Kam dál?
- Pro inspiraci nebo diskutování problémů - česká skupina o umělé inteligenci s více jak 100.000 členy
- Instagram mé virtuální influencerky Cestomissky, kam dávám svá experimentálně vytvořená videa s dodržením character referency
- Instagromový účet Vision Dream Labs, kam dávám tvorbu, co se nehodí pro cestomissku
- Facebooková stránka Učím se AI, kam dávám poznatky ze svého seznamování s AI nástroji
- Blog u umělé inteligenci, jehož rozjezd trochu drhne, přiznávám. Google Adsense mi na něm zatím nezprovoznil Adsense, tak články jsou zde.
- Můj profil na Medium.cz, kam dávám populárně naučné články o umělé inteligenci, kde jdu méně do hloubky.