Подсказки по промтам для Sora 2

Это перевод статьи с официального сайта openai.com. Делал для себя, но вдруг кому то тоже пригодиться. Тем более, что эти подсказки можно использовать и для других нейросетей, в т.ч. запущенных локально. Сильно не пинайте, переводил для себя, сильно на стилистике текста не заморачивался.

Представьте, что подсказки — это брифинг для оператора, который никогда не видел вашей раскадровки. Если вы упустите детали, оператор будет импровизировать, и вы можете не получить то, что задумали. Чётко описывая, что должен получить «кадр», вы даёте модели больше контроля и стабильности в работе.

Но оставление некоторых деталей открытыми может быть столь же эффективным. Предоставление модели большей творческой свободы может привести к удивительным вариациям и неожиданным, красивым интерпретациям. Оба подхода оправданы: подробные подсказки дают вам контроль и последовательность, в то время как более простые подсказки открывают простор для творческих решений. Правильный баланс зависит от ваших целей и результата, к которому вы стремитесь. Относитесь к подсказкам как к списку творческих пожеланий, а не как к контракту. Как и в случае с ChatGPT, многократное использование одной и той же подсказки приведёт к разным результатам — это фича, а не ошибка. Каждое поколение — это новый подход, и иногда второй или третий вариант лучше.

Самое главное — будьте готовы к итерациям. Небольшие изменения в камере, освещении или движении могут кардинально изменить результат. Сотрудничайте с моделью: вы задаёте направление, а модель предлагает креативные вариации.

Это не точная наука — воспринимайте приведенные ниже рекомендации как полезные рекомендации, которые мы усвоили в ходе работы с моделью.

Параметры API

Подсказка управляет содержимым видео, но некоторые атрибуты управляются только параметрами API. Вы не можете запросить их в текстовом формате, их необходимо задать явно в вызове API:

  • модель : sora-2 или sora-2-pro.
  • Размер : строка в формате {ширина}x{высота}. Поддерживаемые разрешения зависят от выбранной модели:
    • sora-2
      • 1280×720, 720×1280
    • sora-2-pro
      • 1280×720, 720×1280
      • 1024×1792, 1792×1024
  • Секунды : длительность клипа, поддерживаемые значения: «4», «8», «12». Значение по умолчанию — «4».

Эти параметры являются контейнером видео: разрешение, продолжительность и качество не будут меняться в зависимости от фраз вроде «сделай длиннее». Задайте их явно в вызове API; всё остальное (тема, движение, освещение, стиль) контролируется вашим запросом.

Разрешение видео

Разрешение видео напрямую влияет на визуальную точность и согласованность движения в Sora. Более высокое разрешение точнее передает детали, текстуру и световые переходы, в то время как более низкое сжимает визуальную информацию, что часто приводит к размытию или артефактам.

Длина видео

Модель, как правило, более точно следует инструкциям в коротких клипах. Для достижения наилучших результатов стремитесь к лаконичным кадрам. Если ваш проект позволяет, вы можете добиться лучших результатов, объединив два 4-секундных клипа при монтаже вместо создания одного 8-секундного.

Быстрая анатомия, которая работает

Чёткая подсказка описывает кадр так, словно вы набрасываете его на раскадровке. Укажите постановку кадра, отметьте глубину резкости, опишите действие по кадрам, выберите освещение и палитру. Выделив объект несколькими характерными деталями, вы сделаете его узнаваемым, а одно правдоподобное действие поможет легче следить за кадром.

Описание нескольких кадров в одном задании также уместно, если вам нужно охватить последовательность. При этом каждый блок кадров должен быть отдельным: одна установка камеры, одно действие объекта и один рецепт освещения за раз. Это даёт вам гибкость для создания коротких отдельных клипов или более длинных, непрерывных фрагментов, в зависимости от вашего проекта. Относитесь к каждому кадру как к творческой единице, и вы можете либо склеить их в монтаже, либо позволить им воспроизводиться как последовательность за один проход.

  • Более короткие подсказки дают модели больше творческой свободы. Ожидайте неожиданных результатов.
  • Более длинные и подробные подсказки ограничивают творческий потенциал модели. Она попытается следовать вашим указаниям, но не всегда будет делать это надёжно.

Вот пример короткой подсказки:

In a 90s documentary-style interview, an old Swedish man sits in a study and says, "I still remember when I was young."

Скорее всего, эта подсказка сработает:

  • 90s documentaryЗадаёт стиль видео. Модель автоматически выберет такие параметры, как объектив камеры, освещение и цветовую гамму.
  • an old Swedish man sits in a studyописывает объект и обстановку в мельчайших деталях, давая модели возможность проявить творческую свободу в отношении того, как должны выглядеть человек и обстановка.
  • and says, "I still remember when I was young."Описывает диалог. Сора, вероятно, сможет его точно воспроизвести.

Это задание гарантированно создаст видео, отвечающее этим требованиям. Однако оно может не полностью соответствовать вашему видению, поскольку многие детали остаются открытыми. Например, в задании не описываются время суток, погода, наряды, тон, внешность и возраст персонажа, ракурсы камеры, монтажные кадры, декорации и многие другие факторы. Если вы не опишите эти детали, Сора их выдумает.

Становимся ультра-детализированными

Для сложных кинематографических кадров вы можете выйти за рамки стандартной структуры инструкций и задать визуальный ряд, настройки камеры, цветокоррекцию, звуковой ландшафт и даже обоснование кадра в профессиональных терминах. Это похоже на то, как режиссёр инструктирует съёмочную группу или команду по визуальным эффектам. Подробные инструкции по линзам, фильтрации, освещению, цветокоррекции и движению помогают модели сосредоточиться на конкретной эстетике.

Например, можно описать, на что зритель обращает внимание в первую очередь : платформу камеры и объектив , направление освещения , цветовую палитру , качество текстур , звуковое сопровождение и хронометраж . Этот подход хорошо работает, когда вы хотите соответствовать стилю настоящей кинематографии (например, съёмка с воздуха IMAX, ручная съёмка на 35-мм плёнку, винтажная документальная съёмка на 16-мм плёнку) или сохранить строгую преемственность между кадрами.

Пример

Format & Look
Duration 4s; 180° shutter; digital capture emulating 65 mm photochemical contrast; fine grain; subtle halation on speculars; no gate weave.

Lenses & Filtration
32 mm / 50 mm spherical primes; Black Pro-Mist 1/4; slight CPL rotation to manage glass reflections on train windows.

Grade / Palette
Highlights: clean morning sunlight with amber lift.
Mids: balanced neutrals with slight teal cast in shadows.
Blacks: soft, neutral with mild lift for haze retention.

Lighting & Atmosphere
Natural sunlight from camera left, low angle (07:30 AM).
Bounce: 4×4 ultrabounce silver from trackside.
Negative fill from opposite wall.
Practical: sodium platform lights on dim fade.
Atmos: gentle mist; train exhaust drift through light beam.

Location & Framing
Urban commuter platform, dawn.
Foreground: yellow safety line, coffee cup on bench.
Midground: waiting passengers silhouetted in haze.
Background: arriving train braking to a stop.
Avoid signage or corporate branding.

Wardrobe / Props / Extras
Main subject: mid-30s traveler, navy coat, backpack slung on one shoulder, holding phone loosely at side.
Extras: commuters in muted tones; one cyclist pushing bike.
Props: paper coffee cup, rolling luggage, LED departure board (generic destinations).

Sound
Diegetic only: faint rail screech, train brakes hiss, distant announcement muffled (-20 LUFS), low ambient hum.
Footsteps and paper rustle; no score or added foley.

Optimized Shot List (2 shots / 4 s total)

0.00–2.40 — “Arrival Drift” (32 mm, shoulder-mounted slow dolly left)
Camera slides past platform signage edge; shallow focus reveals traveler mid-frame looking down tracks. Morning light blooms across lens; train headlights flare softly through mist. Purpose: establish setting and tone, hint anticipation.

2.40–4.00 — “Turn and Pause” (50 mm, slow arc in)
Cut to tighter over-shoulder arc as train halts; traveler turns slightly toward camera, catching sunlight rim across cheek and phone screen reflection. Eyes flick up toward something unseen. Purpose: create human focal moment with minimal motion.

Camera Notes (Why It Reads)
Keep eyeline low and close to lens axis for intimacy.
Allow micro flares from train glass as aesthetic texture.
Preserve subtle handheld imperfection for realism.
Do not break silhouette clarity with overexposed flare; retain skin highlight roll-off.

Finishing
Fine-grain overlay with mild chroma noise for realism; restrained halation on practicals; warm-cool LUT for morning split tone.
Mix: prioritize train and ambient detail over footstep transients.
Poster frame: traveler mid-turn, golden rim light, arriving train soft-focus in background haze.

Визуальные подсказки, которые направляют взгляд

При написании подсказок стиль — один из самых мощных рычагов, помогающих модели достичь желаемого результата. Описание общей эстетики, например, «фильм 1970-х», «эпическая сцена в формате IMAX» или «16-миллиметровая чёрно-белая плёнка» , задаёт визуальный тон, который обрамляет все остальные варианты. Определите этот стиль заранее, чтобы модель могла последовательно его придерживаться.

Одни и те же детали будут восприниматься совершенно по-разному в зависимости от того, нужна ли вам отточенная голливудская драма, клип на мобильный телефон или зернистая винтажная реклама. Задав тон, добавьте детали, используя кадры, действие и свет.

Ясность побеждает. Вместо расплывчатых подсказок вроде «красивая улица» напишите «мокрый асфальт, зебра, отражение неоновой вывески». Вместо «быстро движется» укажите «пробегает три шага и останавливается у обочины». Глаголы и существительные, указывающие на видимые результаты, всегда дадут более чёткий и последовательный результат.

Слабая подсказкаСильная подсказка
«Прекрасная улица ночью»«Мокрый асфальт, пешеходный переход типа «зебра», неоновые вывески, отражающиеся в лужах»
«Человек движется быстро»«Велосипедист крутит педали три раза, тормозит и останавливается на пешеходном переходе»
«Кинематографический вид»«Анаморфотный объектив 2.0x, малая глубина резкости, объёмный свет»

Направление камеры и кадрирование формируют ощущение от снимка. Общий план сверху подчеркнёт пространство и контекст, а крупный план на уровне глаз сфокусирует внимание на эмоциях. Глубина резкости добавляет ещё один уровень: поверхностная фокусировка позволяет выделить объект на размытом фоне, в то время как глубокая фокусировка сохраняет резкость как переднего, так и заднего планов. Освещение задаёт тон не менее сильно. Мягкий, тёплый ключевой свет создаёт притягательную атмосферу, а одиночный жёсткий свет с холодными краями усиливает драматизм.

При представлении персонажей будьте готовы к некоторой непредсказуемости — небольшие изменения в фразировке могут изменить характер персонажа, позу или фокус всей сцены. Соблюдайте единообразие описаний в разных кадрах, используйте фразировки повторно для обеспечения целостности и избегайте смешения черт характера, которые могут противоречить друг другу.

Слабый

Camera shot: cinematic look

Сильный

Camera shot: wide shot, low angleDepth of field: shallow (sharp on subject, blurred background)Lighting + palette: warm backlight with soft rim

Несколько примеров хороших инструкций по кадрированию:

  • широкий установочный план, уровень глаз
  • широкий план, следование слева направо с зарядом
  • общий план сверху, небольшой угол наклона вниз
  • снимок среднего крупного плана, небольшой ракурс сзади

Несколько примеров хороших инструкций по движению камеры:

  • медленно наклоняющаяся камера
  • ручная камера

Управляйте движением и временем

Движение часто бывает самым сложным для правильной передачи, поэтому старайтесь сделать его простым. В каждом кадре должно быть одно чёткое движение камеры и одно чёткое действие объекта. Действия лучше всего описывать в тактах или счёте — небольшими шагами, жестами или паузами, — чтобы они ощущались в рамках времени.

«Актёр идёт по комнате» — не даёт особого простора для работы. Фраза вроде «Актёр делает четыре шага к окну, останавливается и в последнюю секунду задергивает штору» делает тайминг точным и достижимым.

Слабый

Actor walks across the room.

Сильный

Actor takes four steps to the window, pauses, and pulls the curtain in the final second.

Освещение и согласованность цвета

Свет определяет настроение так же, как действие или обстановка. Рассеянный свет в кадре создаёт ощущение спокойствия и нейтральности, в то время как один яркий источник создаёт резкий контраст и напряжение. При склейке нескольких клипов единая логика освещения — залог безупречного монтажа.

Опишите как качество света, так и цветовые якоря, которые его усиливают. Вместо общей фразы вроде «ярко освещённая комната» укажите сочетание источников и тонов: «мягкий свет из окна с тёплым ламповым наполнением и прохладным отблеском из коридора». Использование трёх-пяти цветов поможет сохранить цветовую палитру стабильной на разных снимках.

Слабый

Lighting + palette: brightly lit room

Сильный

Lighting + palette: soft window light with warm lamp fill, cool rim from hallway Palette anchors: amber, cream, walnut brown

Используйте ввод изображения для большего контроля

Для ещё более точного управления композицией и стилем снимка вы можете использовать изображение в качестве визуальной основы. Это могут быть фотографии, цифровые изображения или визуальные материалы, созданные искусственным интеллектом. Это фиксирует такие элементы, как дизайн персонажей, костюмы, декорации или общая эстетика. Модель использует изображение в качестве точки отсчёта для первого кадра, а текстовая подсказка определяет дальнейшие действия.

Как это использовать

Включите файл изображения в качестве параметра input_reference в ваш запрос POST /videos.

  • Изображение должно соответствовать разрешению (размеру) целевого видео.
  • Поддерживаемые форматы файлов: image/jpegimage/png, и image/webp.
Входное изображение, созданное с помощью OpenAI GPT ImageВидео создано с помощью Sora 2 (конвертировано в GIF)
Загрузить это изображениеПодсказка: «Она оборачивается и улыбается, затем медленно выходит из кадра».
Загрузить это изображениеПодсказка: «Дверца холодильника открывается. Из неё вылезает милый пухлый фиолетовый монстрик».

Совет по экспериментированию

Если у вас ещё нет визуальных референсов, модель генерации изображений OpenAI — это мощный инструмент для их создания. Вы можете быстро создавать дизайны сред и сцен, а затем передавать их в Sora в качестве референсов. Это отличный способ проверить эстетику и создать прекрасные отправные точки для ваших видео.

Диалоги и аудио

Диалог должен быть описан непосредственно в тексте. Разместите его в блоке под прозаическим описанием, чтобы модель чётко отличала визуальное описание от устной речи. Стройте реплики кратко и естественно, старайтесь ограничить диалоги несколькими предложениями, чтобы хронометраж соответствовал продолжительности ролика. В сценах с несколькими персонажами последовательно обозначайте говорящих и используйте чередование реплик; это поможет модели связать каждую реплику с жестами и выражением лица нужного персонажа.

Также стоит подумать о ритме и времени: четырёхсекундный ролик обычно вмещает один-два коротких диалога, а восьмисекундный — ещё несколько. Длинные, сложные речи вряд ли будут хорошо синхронизированы и могут нарушить темп.

Если ваш кадр беззвучный, вы всё равно можете предложить темп одним тихим звуком, например, «далёким шипением транспорта» или «резким щелчком». Думайте об этом как о ритмической подсказке, а не как о полноценном саундтреке.

Пример подсказки с диалогом:

A cramped, windowless room with walls the color of old ash. A single bare bulb dangles from the ceiling, its light pooling onto the scarred metal table at the center. Two chairs face each other across it. On one side sits the Detective, trench coat draped across the back of his chair, eyes sharp and unblinking. Across from him, the Suspect slouches, cigarette smoke curling lazily toward the ceiling. The silence presses in, broken only by the faint hum of the overhead light.Dialogue:- Detective: "You’re lying. I can hear it in your silence."- Suspect: "Or maybe I’m just tired of talking."- Detective: "Either way, you’ll talk before the night’s over."

Пример описания фонового звука:

The hum of espresso machines and the murmur of voices form the background.

Повторите с функцией ремикса

Ремикс нужен для подталкивания, а не для азартных игр. Используйте его для внесения контролируемых изменений — по одному за раз — и объясните, что именно вы меняете: «тот же кадр, переключитесь на 85 мм» или «то же освещение, новая палитра: бирюзовый, песочный, ржавый». Когда результат будет близок к желаемому, закрепите его как референс и опишите только изменение. Таким образом, всё, что уже работает, останется в силе.

Если кадр постоянно не получается, упростите его: заморозьте камеру, упростите действие, очистите фон. Когда всё получится, постепенно усложняйте сцену.

Оригинальное видеоРемикс сгенерированного видео
Оригинальное видео 1Оригинальное видеоРемикс Видео 1Подсказка: «Измените цвет монстра на оранжевый».
Оригинальное видео 1Оригинальное видеоРемикс Видео 2Подсказка: «Сразу после этого появляется второй монстр»

Шаблоны и примеры подсказок

Структура запроса

Один из эффективных способов написания подсказок — разделить различные виды информации, которую должна использовать модель. Это не универсальный рецепт успеха , но он даёт чёткую структуру и помогает быть последовательными. Необязательно включать каждую деталь — если что-то не имеет значения для кадра, это можно опустить.

Фактически, если оставить некоторые элементы открытыми, модель будет более креативной . Чем менее строго вы определите каждый визуальный выбор, тем больше у модели будет возможностей для интерпретации и удивления вас неожиданными, но зачастую прекрасными вариациями. Подсказки с высокой степенью описания дают более последовательные и контролируемые результаты, в то время как более простые подсказки могут открыть доступ к разнообразным, свежим и оригинальным результатам. Шаблон описательной подсказки:

[Prose scene description in plain language. Describe characters, costumes, scenery, weather and other details. Be as descriptive to generate a video that matches your vision.]Cinematography:Camera shot: [framing and angle, e.g. wide establishing shot, eye level]Mood: [overall tone, e.g. cinematic and tense, playful and suspenseful, luxurious anticipation]Actions:- [Action 1: a clear, specific beat or gesture]- [Action 2: another distinct beat within the clip]- [Action 3: another action or dialogue line]Dialogue:[If the shot has dialogue, add short natural lines here or as part of the actions list. Keep them brief so they match the clip length.]

Примеры подсказок

Пример 1

Style: Hand-painted 2D/3D hybrid animation with soft brush textures, warm tungsten lighting, and a tactile, stop-motion feel. The aesthetic evokes mid-2000s storybook animation — cozy, imperfect, full of mechanical charm. Subtle watercolor wash and painterly textures; warm–cool balance in grade; filmic motion blur for animated realism.Inside a cluttered workshop, shelves overflow with gears, bolts, and yellowing blueprints. At the center, a small round robot sits on a wooden bench, its dented body patched with mismatched plates and old paint layers. Its large glowing eyes flicker pale blue as it fiddles nervously with a humming light bulb. The air hums with quiet mechanical whirs, rain patters on the window, and the clock ticks steadily in the background.Cinematography:Camera: medium close-up, slow push-in with gentle parallax from hanging toolsLens: 35 mm virtual lens; shallow depth of field to soften background clutterLighting: warm key from overhead practical; cool spill from window for contrastMood: gentle, whimsical, a touch of suspenseActions:- The robot taps the bulb; sparks crackle.- It flinches, dropping the bulb, eyes widening.- The bulb tumbles in slow motion; it catches it just in time.- A puff of steam escapes its chest — relief and pride.- Robot says quietly: "Almost lost it… but I got it!"Background Sound:Rain, ticking clock, soft mechanical hum, faint bulb sizzle.

Пример 2

Style: 1970s romantic drama, shot on 35 mm film with natural flares, soft focus, and warm halation. Slight gate weave and handheld micro-shake evoke vintage intimacy. Warm Kodak-inspired grade; light halation on bulbs; film grain and soft vignette for period authenticity.At golden hour, a brick tenement rooftop transforms into a small stage. Laundry lines strung with white sheets sway in the wind, catching the last rays of sunlight. Strings of mismatched fairy bulbs hum faintly overhead. A young woman in a flowing red silk dress dances barefoot, curls glowing in the fading light. Her partner — sleeve

Вам может также понравиться...

Мы используем cookie-файлы для наилучшего представления нашего сайта. Продолжая использовать этот сайт, вы соглашаетесь с использованием cookie-файлов.
Принять