research.baam

Perturbations faibles et trajectoires émergentes dans les grands modèles de langage

Observations préliminaires sur les effets de la sous-spécification, de la faible densité sémantique et des dynamiques implicites dans les systèmes génératifs.

BAAM Research Cargo IA générative · Prompting · Émergence Version 0.1

Sparse Perturbations and Emergent Trajectories in Large Language Models

Preliminary observations on under-specification, low-semantic-density inputs, and implicit dynamics in generative systems.

BAAM Research Cargo Generative AI · Prompting · Emergence Version 0.1

Les interfaces actuelles avec les grands modèles de langage reposent largement sur une hypothèse intuitive : plus une demande est explicite, précise et riche en contraintes, plus le résultat devrait être satisfaisant. Des observations répétées dans des usages créatifs, graphiques et conversationnels suggèrent pourtant une possibilité inverse. Dans certains contextes, des entrées plus courtes, moins explicites ou faiblement sémantisées semblent parfois déclencher des trajectoires de sortie plus cohérentes, plus variées ou plus vivantes. Ce texte ne propose pas une théorie complète. Il formule une anomalie de travail et quelques protocoles pour l’étudier.

1. Le paradoxe de départ

Le paradigme dominant du prompting suppose une relation presque linéaire entre précision de l’instruction et qualité du résultat. Une intention mieux décrite devrait produire une réponse plus proche de cette intention.

Cette hypothèse fonctionne souvent. Elle est indispensable pour les tâches factuelles, juridiques, techniques ou fortement contraintes. Mais elle semble moins robuste dans certains domaines génératifs : écriture, image vectorielle, animation, exploration d’idées, design d’interaction.

À partir d’un certain seuil, ajouter du sens explicite peut réduire la richesse de la trajectoire produite.

2. Observation phénoménologique

Dans plusieurs workflows, une différence récurrente apparaît entre les prompts très spécifiés et les prompts plus faibles.

Prompts denses

Meilleure conformité locale, mais risque accru de rigidité, de répétition, d’effet scolaire et de composition fragmentée.

Prompts faibles

Moins de contrôle immédiat, mais parfois davantage de cohérence globale, de variation, de surprise et d’intégration formelle.

Ce phénomène n’est pas systématique. Il ne remplace pas l’ingénierie de prompt. Il indique seulement que la relation entre contrôle sémantique et qualité générative pourrait être non monotone.

3. Désémantiser l’entrée

Par “faible densité sémantique”, on ne désigne pas une absence de signal. Une entrée pauvre en description peut encore contenir une direction, un rythme, une tension, une contrainte formelle ou un geste.

L’hypothèse est que certaines entrées agissent moins comme des instructions que comme des perturbations. Elles ne transmettent pas un résultat préformé. Elles déplacent légèrement un système déjà structuré par son entraînement, son post-entraînement et son contexte courant.

Instruction explicite → conformité locale
Perturbation faible → trajectoire implicite

4. Hypothèses de travail

H1 · Surcontrainte

Une augmentation de la densité sémantique peut réduire l’espace des solutions disponibles et encourager une optimisation locale au détriment de la cohérence globale.

H2 · Trajectoire implicite

Les modèles possèdent des gradients internes hérités de leur trajectoire d’entraînement. Des signaux faibles peuvent laisser ces gradients s’exprimer plus librement.

H3 · Masquage sémantique

Des instructions très explicites peuvent masquer ou interrompre des structures latentes plus larges, en forçant le modèle à satisfaire des contraintes de surface.

H4 · Résonance

La qualité d’une interaction générative pourrait dépendre moins du volume d’information transmis que de l’accord entre une perturbation externe et les dynamiques internes du modèle.

5. Pourquoi les LLM rendent ce phénomène plausible

Les modèles récents ne sont pas des moteurs neutres d’exécution. Ils sont le résultat d’une succession de couches historiques : pré-entraînement, données synthétiques, distillation, post-entraînement, apprentissage de préférences, spécialisations, outils et contexte conversationnel.

Deux modèles proches en performance peuvent donc avoir des comportements très différents : plus sobres ou plus expansifs, plus prudents ou plus constructeurs, plus littéraux ou plus exploratoires.

Si chaque modèle possède une pente implicite, alors une partie de l’interaction consiste peut-être à trouver le type de signal qui permet à cette pente de produire quelque chose d’intéressant.

6. Domaines d’observation

SVG et graphisme vectoriel : les descriptions exhaustives améliorent certains détails mais peuvent appauvrir la composition globale.
Animation : des paramètres simples peuvent générer des dynamiques plus lisibles que des scénarios trop précisément dictés.
Écriture : un cadrage minimal produit parfois une continuité narrative plus forte qu’une liste longue d’exigences stylistiques.
Dialogue long : les concepts émergent souvent par dérive contrôlée plutôt que par planification explicite.

7. Directions expérimentales

Le phénomène peut être étudié sans supposer qu’il est déjà compris.

Balayage de densité : varier systématiquement la quantité de contraintes tout en gardant le même objectif.
Comparaison inter-modèles : tester les mêmes signaux faibles sur plusieurs modèles.
Évaluation humaine : mesurer cohérence, originalité, surprise, intégration et perception de “vitalité”.
Mesures informationnelles : comparer diversité de sortie, entropie, compression et stabilité des motifs.
Protocoles aveugles : séparer la génération, la sélection et l’évaluation pour réduire l’effet d’attente.

8. Limites

Les termes “vivant”, “riche” ou “cohérent” restent partiellement subjectifs. Les observations peuvent être sensibles au domaine, au modèle, au contexte et à l’évaluateur.

Il est également possible que les effets perçus proviennent de biais de sélection : les sorties faibles mais réussies sont plus mémorables que les sorties faibles ratées.

Cette note ne prétend donc pas établir un mécanisme causal. Elle propose un objet d’étude : la possibilité que certains régimes de sous-spécification produisent des trajectoires génératives non triviales.

Conclusion

La relation entre précision sémantique et qualité générative n’est peut-être pas simplement croissante. Dans certains contextes, trop spécifier peut rigidifier le modèle, tandis qu’une perturbation plus pauvre peut laisser apparaître des structures plus globales.

Il peut donc être utile de penser l’interaction avec les grands modèles de langage non seulement comme une transmission d’instructions, mais comme une mise en tension d’un paysage appris.

On ne commande pas toujours la trajectoire intéressante. Parfois, on la déclenche.

Piste suivante : construire un protocole public court — même objectif, cinq niveaux de densité de prompt, plusieurs modèles, évaluation aveugle — afin de vérifier si l’effet dépasse l’intuition de praticien.

Current interfaces with large language models largely rely on an intuitive assumption: the more explicit, precise, and constrained a request is, the better the output should be. Repeated observations in creative, graphical, and conversational workflows suggest a possible reversal. In some contexts, shorter, less explicit, or low-semantic-density inputs appear to trigger outputs that are more coherent, more varied, or more alive. This text does not propose a complete theory. It formulates a working anomaly and outlines possible protocols for studying it.

1. Initial paradox

The dominant prompting paradigm assumes an almost linear relationship between instruction precision and output quality. A better-described intention should produce a response closer to that intention.

This assumption often works. It is essential for factual, legal, technical, or highly constrained tasks. But it appears less robust in certain generative domains: writing, vector graphics, animation, idea exploration, and interaction design.

Beyond a certain threshold, adding explicit meaning may reduce the richness of the generated trajectory.

2. Phenomenological observation

Across several workflows, a recurring difference appears between highly specified prompts and weaker prompts.

Dense prompts

Better local compliance, but increased risk of rigidity, repetition, school-like structure, and fragmented composition.

Sparse prompts

Less immediate control, but sometimes more global coherence, variation, surprise, and formal integration.

The phenomenon is not systematic. It does not replace prompt engineering. It only suggests that the relation between semantic control and generative quality may be non-monotonic.

3. De-semantizing the input

By “low semantic density,” we do not mean an absence of signal. An input poor in description can still contain a direction, rhythm, tension, formal constraint, or gesture.

The hypothesis is that some inputs act less like instructions and more like perturbations. They do not transmit a preformed result. They slightly displace a system already structured by its pre-training, post-training, and current context.

Explicit instruction → local compliance
Sparse perturbation → implicit trajectory

4. Working hypotheses

H1 · Overconstraint

Increasing semantic density may reduce the available solution space and encourage local optimization at the expense of global coherence.

H2 · Implicit trajectory

Models possess internal gradients inherited from their training trajectory. Weak signals may allow these gradients to express themselves more freely.

H3 · Semantic masking

Highly explicit instructions may mask or interrupt larger latent structures by forcing the model to satisfy surface constraints.

H4 · Resonance

The quality of a generative interaction may depend less on the amount of information transmitted than on the fit between an external perturbation and the model’s internal dynamics.

5. Why LLMs make this plausible

Recent models are not neutral execution engines. They are the result of successive historical layers: pre-training, synthetic data, distillation, post-training, preference learning, specializations, tools, and conversational context.

Two models with similar benchmark performance can therefore behave very differently: more restrained or more expansive, more cautious or more constructive, more literal or more exploratory.

If each model has an implicit slope, then part of the interaction may consist in finding the kind of signal that lets this slope produce something interesting.

6. Domains of observation

SVG and vector graphics: exhaustive descriptions improve some details but can weaken the global composition.
Animation: simple parameters may produce more legible dynamics than overly scripted scenarios.
Writing: minimal framing sometimes produces stronger narrative continuity than a long list of stylistic requirements.
Long dialogue: concepts often emerge through controlled drift rather than explicit planning.

7. Experimental directions

The phenomenon can be investigated without assuming that it is already understood.

Density sweeps: systematically vary the amount of constraints while holding the same goal constant.
Cross-model comparison: test the same weak signals across several models.
Human evaluation: measure coherence, originality, surprise, integration, and perceived “vitality”.
Information-theoretic measures: compare output diversity, entropy, compression, and motif stability.
Blind protocols: separate generation, selection, and evaluation to reduce expectation effects.

8. Limitations

Terms such as “alive,” “rich,” or “coherent” remain partly subjective. Observations may depend on the domain, model, context, and evaluator.

It is also possible that the perceived effects come from selection bias: successful sparse outputs are more memorable than failed sparse outputs.

This note therefore does not claim to establish a causal mechanism. It proposes an object of study: the possibility that certain regimes of under-specification produce non-trivial generative trajectories.

Conclusion

The relationship between semantic precision and generative quality may not be simply increasing. In some contexts, over-specification may rigidify the model, while a poorer perturbation may reveal more global structures.

It may therefore be useful to think of interaction with large language models not only as the transmission of instructions, but as the tensioning of a learned landscape.

The interesting trajectory is not always commanded. Sometimes, it is triggered.

Next step: build a short public protocol — same objective, five prompt-density levels, several models, blind evaluation — to test whether the effect extends beyond practitioner intuition.